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数据 集成 的 第 一 部 综合 指南 ， 从 理论 原则 到 实现 细节 ， 再 到 语义 网 和 云 计算 目前 所 面临 的 新 挑战 。 


这 是 一 本 数据 集成 技术 的 权威 之 作 ， 书 中 的 大 部 分 技术 都 是 作者 提出 来 的 ， 本 书 内 容 全 面 ， 很 多 
技术 细节 都 介绍 得 非常 清楚 ， 是 数据 集成 相关 工作 人 员 的 必 读 书籍 


—— Philip A. Bernstein, WEARI EFES 
本 书 的 三 位 作者 对 数据 集成 领域 都 有 重要 贡献 ， 既 有 学 术 背 景 ， 又 有 工业 界 的 经 历 ， 书 中 包 侣 
多 例子 和 相关 信息 ， 以 便于 读者 理解 理论 知识 ， 本 书包 一 数据 集成 技术 的 很 多 方面 ， 包 括 不 同 


的 集成 方式 、 数据 和 模式 匹配 、 查询 处 理 和 包装 器 ， 还 包括 Web 以 及 多 种 数据 类 型 和 数据 格式 带 来 的 
挑战 。 本 书 非常 适合 作为 研究 生 数 据 集成 课程 教材 


一 一 Michael Carey, itl ke: 欧文 分 校 信 明 拒 计算 机 科学 Bren 教 授 

数据 集成 主要 用 来 解决 跨 多 个 数据 源 的 查询 处 理 问 是 本 书 是 有 关 数 据 集成 技术 的 集大成 之 作 ， 由 
该 领域 最 受 尊重 的 三 位 专家 融合 多 年 学 术 成 果 和 工业 经 验 编写 而 成 ， 全面 介绍 了 作为 当今 数据 集成 技术 
基础 的 理论 和 概念 ， 并 用 具体 的 实例 详细 解释 这 些 概念 的 系统 实现 ， 以 及 面临 的 各 种 挑战 。 适 合作 为 高 


等 院 校 计算 机 、 信 息 管理 等 相关 专业 高 年 级 本 科 生 或 者 研究 生 课 程 的 教材 或 参考 书 ， 同 时 对 于 数据 管理 
领域 的 研究 人 员 和 专业 人 士 ， 本 书 也 是 一 本 非常 实用 的 参考 资料 和 实践 指南 。 
本 书 特 点 
e 提供 一 系列 数据 集成 解决 方案 ， 使 研究 人 员 和 从 业者 能 把 重点 放 在 手头 的 问题 上 。 
e 提供 特定 的 算法 来 解决 常见 的 数据 集成 挑战 。 s 
o 使 你 可 以 创建 自己 的 算法 并 实现 自己 的 数据 集成 应 用 。 
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文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 自然 科学 
的 各 个 领域 取得 了 垄断 性 的 优势 ; 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 
间 名 家 辈出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 
计算 机 学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著 
作 ， 不 仅 壁 划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 
其 价值 并 不 会 因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 
日 益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 
战略 上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国家 在 其 计算 
机 科学 发 展 的 几 十 年 间 积淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国 
外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接 
轨 、 建 设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 年 开始 ， 我 们 就 
将 工作 重点 放 在 了 遂 选 、 移 译 国 外 优秀 教材 上。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良好 
的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, 
Brain W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey 
D. Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, 
Larry L. Peterson 等 大 师 名 家 的 一 批 经典 作 品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 
学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 圳 助 ， 国 内 的 专家 不 仅 提供 了 
中 肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 丛书 ”已 经 出 版 了 近 
两 百 个 品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书 
籍 。 其 影印 版 “经 典 原 版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 
的 图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完 善 和 教材 改革 的 逐 
渐 深 化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 和 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽 
善 尽 美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢 迎 老师 和 读者 
对 我 们 的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : www. hzbook. com 

电子 邮件 : hzjsj@ hzbook. com 

联系 电话 : (010) 88379604 oe 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 华章 科技 图 书 出 版 中 心 


邮政 编码 : 100037 
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得 知 孟 小 峰 教授 把 《Principles of Data Integration) 翻译 成 了 中 文 版 ， 我 们 非常 高 兴 ， 
因为 这 必 将 为 信息 技术 中 的 这 一 重要 主题 带 来 很 多 新 的 读者 。 同 时 ， 我 们 也 希望 中 国 的 读 
者 能 从 本 书 中 受益 。 

数据 集成 是 数据 管理 一 直 以 来 所 面临 的 挑战 之 一 ， 并 且 ， 在 大 数据 时 代 ， 数 据 集成 将 
变 得 更 为 重要 。 很 多 公司 或 企业 都 面临 数据 集成 的 挑战 ， 主 要 原因 在 于 ， 数 据 集 一 直 在 独 
立地 产生 、 获 取 ， 或 者 用 来 解决 数据 产生 者 无 法 预知 的 问题 。 与 数据 管理 的 其 他 挑战 不 
同 ， 数 据 集成 并 不 是 纯粹 的 技术 问题 。 要 解决 数据 集成 问题 往往 需要 在 企业 内 部 处 理 很 多 
社会 问题 ， 并 且 需 要 多 个 不 同 团队 以 新 的 方式 进行 合作 。 此 外 ， 数 据 集成 的 设置 通常 彼此 
有 所 不 同 ， 因 此 ， 同 样 的 技术 很 难 被 多 次 应 用 。 

尽管 存在 上 述 诸多 困难 ， 但 仍然 存在 一 些 适 用 于 许多 数据 集成 场景 的 、 共 同 的 原则 ， 
也 存在 一 些 适 用 于 许多 特定 应 用 场景 的 解决 方案 。 本 书 明 确 了 这 些 共 同 的 原则 ， 并 且 在 一 
个 统一 框架 下 对 已 有 的 解决 方案 进行 了 描述 ， 该 框架 可 以 对 数据 集成 的 各 个 方面 进行 统一 
的 组 织 。 


AnHai Doan 
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Preface to the Chinese Edition of Principles of Data Integration 


We are extremely pleased that Professor Xiaofeng Meng translated our book to Chinese， 
opening up a new audience for a very important topic in information technology. We sincerely hope 
that the Chinese audience will enjoy and benefit from this book. 

Data integration is one of the long- standing challenges of database management, and is 
becoming even more critical in the age of Big Data. It is rare to see a company or enterprise that do 
not face data integration challenges, as data sets are constantly being created independently , 
being acquired, or being used to solve problems not anticipated by their creators. Unlike many 
other data management challenges, data integration is not a purely technical issue. Addressing a 
data integration problem often requires tackling difficult social problems within the enterprise and 
getting different teams to collaborate in new ways. Furthermore, data integration settings are 
typically somewhat different from one another, making it hard to apply the same techniques over 
and over again. 

Despite the aforementioned difficulties, there are principles that are common to many data 
integration scenarios, and there are solutions that can be applied to or adapted to a broad array of 
individual scenarios. This book identifies these principles and describes the known solutions within 


a framework that attempts to organize the diverse world of data integration. 


AnHai Doan 
Alon Halevy 
Zachary Ives 

May 2014 
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近 20 年 来 ， 数 据 产生 的 方式 不 断 得 到 扩展 ， 带 来 数据 管理 需求 和 任务 的 不 断 变化 ， 
促使 数据 管理 技术 不 断 推陈出新 。 数 据 库 管 理 系 统 、 数 据 仓库 与 数据 挖掘 、 数 据 集成 被 视 
为 三 足 易 立 的 现代 数据 管理 技术 ， 它 们 在 构建 信息 系统 中 的 作用 相当 、 互 为 依存 、 缺 一 不 
可 。 但 在 人 们 的 认 知 度 上 ， 数 据 集成 技术 远 不 及 前 两 者 ， 其 主要 原因 或 许 在 于 缺乏 像 数 据 
库 系统 、 数 据 挖掘 广为人知 的 专业 教材 ， 使 得 该 技术 虽 “ 叫 好 〈 广 为 应 用 )”， 但 “不 叫座 
(缺乏 教学 传播 )”。 大 学 也 鲜 有 开设 此 类 课程 的 ， 其 知识 的 积累 多 散 见 于 论文 、 系 统 。 本 书 可 
以 说 一 举 改变 了 数据 集成 没有 专业 教材 的 困 局 。 尤 其 在 当今 的 大 数据 背景 下 ， 本 书 的 作用 尤为 
突出 。 

本 书 是 有 关 数 据 集 成 技术 的 集大成 之 作 。 数 据 集 成 简单 地 说 是 指 为 多 个 数据 源 提供 
统一 访问 的 技术 。 数 据 集 成 技术 已 有 20 多 年 的 研究 历史 ， 大 致 可 分 为 两 个 阶段 : 首先 ， 
在 数据 库 应 用 发 展 到 一 定 阶段 时 ， 积 累 了 大 量 封闭 、 完 备 的 异 构 数 据 库 ， 形 成 了 企业 异 
构 数 据 库 范畴 下 的 数据 集成 ; 其 次 ， 随 着 Web 的 出 现 , 积累 了 大 量 开 放 、 多 源 异 构 的 
数据 源 (一 部 分 是 DBMS 支持 的 数据 源 ， 大 量 的 是 缺乏 结构 、 不 确定 的 数据 源 ) ， 遂 形 
成 了 Web 多 源 异 构 数据 源 范畴 下 的 数据 集成 。 两 者 的 侧重 点 有 所 不 同 ， 技 术 和 方法 也 
有 所 差异 。 前 者 是 基于 封闭 世界 的 假设 ， 后 者 则 是 基于 开放 世界 的 假设 ， 难 度 也 大 大 增 
加 。AnHai Doan 等 几 位 作者 的 研究 背景 涉及 这 两 个 阶段 ， 因 此 本 书 试图 将 这 两 个 阶段 研 
究 成 果 的 共性 技术 同时 呈现 在 读者 面前 。 本 书 以 教科 书 的 逻辑 整理 有 关内 容 ， 强 调 知 识 
的 基础 性 和 理论 性 。 本 书 共 有 三 个 部 分 : 第 一 部 分 介绍 数据 集成 的 基本 知识 ， 主 要 是 数 
据 库 集成 的 内 容 ， 如 查询 的 表示 、 数 据 源 的 描述 、 模 式 匹配 、 查 询 处 理 、 集 成 方法 等 ; 
穿插 补充 了 Web 数据 集成 的 内 容 ， 如 包装 器 、 数 据 匹 配 (实体 识别 ) 等 。 第 二 部 分 介 
绍 扩展 数据 集成 的 知识 ， 包 括 XML、 语 义 Web 、 不 确定 性 、 数 据 溯源 等 。 第 三 部 分 介绍 
各 种 新 的 集成 技术 ,包括 Web 数据 集成 、 基 于 关键 字 搜 索 的 按 需 集成 、 对 等 集成 、 协 
同 集成 等 。 

值 此 翻译 本 书 之 际 ， 译 者 也 在 撰写 一 部 同类 但 侧重 点 不 同 的 书籍 ， 即 《Web 数据 管 
理 : 概念 与 技术 》。 该 书 直接 以 Web 数据 为 研究 对 象 ， 系 统 地 介绍 Web 数据 管理 的 关键 技 
术 ， 即 以 第 二 阶段 的 数据 集成 为 主线 。 比 较 而 言 ， 本 书 的 主线 是 数据 集成 的 基本 原理 ， 其 
知识 体系 的 厚度 和 广度 令 人 叹服 , 但 有 些 内 容 不 够 系统 ， 略 显 遗 憾 。 

本 书 堪 称 鸿 篇 巨著 ， 翻 译 、 统 稿 和 和 审 校 由 孟 小 峰 组 织 完成 ， 具 体 翻译 分 工 如 下 : 第 1、 
2 章 由 赵 可 君 翻译 ; 第 3 章 由 王 森 翻译 ; 第 4 章 由 王 囊 翻 译 ; 第 5、7 章 由 马 友 忠 翻译 ; 第 
6、9、10 章 由 马 如 起 翻译 ; 第 8 章 由 王 江 涛 翻译 ; 第 11 章 由 王 春 凯 翻译 ; 第 12、13 章 由 
李 勇 翻译 ; 第 14 章 由 韩 旭 翻 译 ; 第 15 章 由 张 榆 翻译 ; 第 16、17 章 由 干 艳 桃 翻译 ; 第 18、 
19 章 由 慈祥 翻译 。 本 书 于 2013 年 秋 译 出 初稿 ， 之 后 由 孟 小 峰 逐 章 进行 修改 或 重 译 ， 并 在 
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实验 室 组 织 了 为 期 两 个 月 的 每 周 课程 讨论 班 ， 这 期 间 三 易 其 稿 ， 最 后 由 孟 小 峰 、 马 如 和 霞 、 
马 友 忠 负责 统一 定稿 。 

本 书 涉 及 面 广 ， 内 容 丰 富 ， 术 语 量 大 ， 翻 译 难度 可 想 而 知 。 本 书 译 词 主 要 遵从 教科 书 
中 的 习惯 用 法 ， 并 参考 《计算 机 科学 技术 名 词 》 等 书籍 。 在 翻译 中 我 们 深 感 力不从心 ， 译 
文中 不 当 之 处 在 所 难免 ， 诚 妨 读 者 批评 指正 并 不 音 赐教 。 如 果 你 有 任何 建议 或 意见 ， 欢 迎 
发 邮件 给 xfmeng@ ruc. edu. en, 
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在 过 去 20 年 中 ， 数 据 库 的 角色 ， 尤 其 是 数据 库 技术 的 角色 已 经 发 生 了 翻天 履 地 的 变 
化 。 在 传统 数据 库 应 用 中 ， 企 业 或 者 组 织 为 了 保存 全 部 的 数据 记录 ， 往 往 拥 有 一 个 集中 
的 、 相 对 封闭 的 数据 库 。 而 如 今 ， 我 们 已 经 进入 了 以 Web 为 主导 的 新 时 代 ， 在 新 的 应 用 
环境 下 ， 不 同 的 数据 库 和 结构 化 信息 源 之 间 往 往 需要 进行 交互 和 相互 操作 ， 这 需要 为 用 户 
提供 一 个 完整 的 集成 视图 。 

本 书 主要 讨论 以 下 问题 : 如 何 对 数据 库 思 想 进行 扩充 和 深化 ， 从 而 使 其 能 够 容纳 外 部 
信息 源 ， 处 理 Web 的 分 布 式 特性 和 信息 共享 带 来 的 问题 ， 特 别 是 异 构 性 和 不 确定 性 。 这 
些 内 容 可 以 作为 大 学 本 科 数 据 库 课程 的 扩展 。 因 此 ， 本 书 主 要 作为 高 年 级 本 科 生 或 者 研究 
生 课 程 的 教材 ， 该 课程 可 以 作为 本 科 生 数据 库 课 程 的 后 续 课 程 。 此 外 ， 本 书 还 可 以 作为 数 
据 库 和 数据 集成 领域 研究 人 员 与 从 业者 的 参考 资料 和 教程 。 

”本 书 主要 包括 3 个 部 分 。 第 一 部 分 以 数据 库 课 程 涵盖 的 研究 主题 为 基础 ， 主 要 关注 数 
据 集成 领域 的 基本 技术 : 查询 表达 式 、 数 据 源 描 述 、 异 构 数据 与 模式 的 匹配 、 模 式 操 作 、 
查询 应 答 、Web 数据 抽取 以 及 集成 数据 的 存储 。 第 二 部 分 主要 关注 扩展 的 数据 表示 ， 扩 展 
的 数据 表示 可 以 获得 标准 关系 数据 模型 无 法 表示 的 一 些 特性 ， 如 层次 型 (XML) 、 基 于 知 
识 表示 的 本 体 构 建 、 不 确定 性 以 及 数据 溯源 。 第 三 部 分 介绍 解决 特定 集成 问题 的 创新 架 
构 ， 主 要 包括 多 样 的 Web 数据 源 集成 、 基 于 关键 字 搜索 的 结构 化 数据 集成 、 对 等 数据 集 
成 和 支持 协同 的 集成 等 。 最 后 介绍 了 数据 集成 技术 的 主要 研究 方向 。 

本 书 提供 了 大 量 网 络 补充 资料 ， 包 括 : 习题 集 、 部 分 习题 的 答案 以 及 教案 。 
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互联 网 的 发 明和 万 维 网 的 出 现 彻底 改变 了 人 们 获取 存储 在 电子 设备 数据 的 方式 。 现 在 我 
们 能 够 很 容易 通过 浏览 器 或 者 智能 手机 进行 查询 ， 对 数 百 万 文档 集合 、 商 业 数据 库 进 行 搜 
索 ， 获 取 推 荐 信息 、 优 惠 券 等 。 同 样 ， 也 可 以 很 方便 地 订购 一 台 我 们 想 要 的 计算 机 ， 并 且 在 
几 天 内 收 到 该 计算 机 ， 即 使 计算 机 配件 分 布 在 世界 各 地 。 为 了 提供 这 种 服务 ， 系 统 必须 能 够 
高 效 、 准 确 地 处 理 互 联网 上 的 大 量 数据 。 但 是 ， 不 同 于 传统 的 数据 管理 应 用 ， 如 公司 的 工资 
管理 系统 这 种 新 服务 需要 在 多 个 应 用 程序 和 组 织 之 间 共 享 数据 ， 并 能 将 数据 以 灵活 、 高 效 的 
方式 集成 起 来 。 本 书 涵 盖 了 数据 集成 的 基本 原理 ， 以 及 一 些 数据 共享 和 数据 集成 技术 。 


1.1 什么 是 数据 集成 
我 们 通过 两 个 实际 的 例子 来 说明 数据 集成 的 必要 性 。 一 个 是 企业 应 用 ， 必 一 个 是 Web MHo 


例 1.1 FullServe 是 一 家 提供 家 庭 互 联网 接 人 的 公司 ， 同 时 也 卖 一 些 支 持家 庭 计算 的 
基础 设施 产品 ， 如 调制 解 调 器 、 无 线路 由 器 、 了 王 语音 电话 和 咖啡 机 。FullServe 是 一 家 以 美 
国 为 主 的 公司 ， 最 近 决 定 把 市 场 扩 大 到 欧洲 。 为 了 扩大 市 场 ，FullServe 收购 了 一 家 欧洲 公 
司 EuroCard， 它 是 一 个 信用 卡 供应 商 ， 最 近 已 开始 利用 其 客户 基础 ， 进 军 互联 网 市 场 ” 。 





Employee 数 据 库 Resume 数据 库 
FullTimeEmps(ssn, emplD, firstName, Interviews(interviewDate, plD, recruiter, 
middieName, lastName) hireDecision, hireDate) 


Hire(empiD, hireDate, recruiter) CVs(ID, resume) 
TempEmployees(ssn, hireStart, 
hireEnd, name, hourlyRate) 


Training Mie Services Biz Æ 
Courses(courselD, name, instructor) Services(packName, textDescription) 
Enroliments(courselD, empiD, date) Customers(name, ID, zipCode, streetAdr, 
phone) 
Contracts(custID, packName, startDate) 
Sales 数据 库 HelpLine 数 据 库 





Products(prodName, prodID) Calls(date, agent, custID, text, action) 
Sales(prodiD, customer!D, 
custName, address) 





图 1-1 FullServe 公司 示例 数据 库 。 对 每 一 个 数据 库 ， 列 举 了 一 些 表 及 其 属性 。 例 
un, RI (Employee) 数据 库 有 一 个 表 FullTimeEmps， 该 表 的 属性 包括 : 
ssn, empID, lastName, middleName 和 firstName 
像 FullServe 这 样 的 公司 常常 有 上 百 个 分 散在 不 同 地 方 的 数据 库 ， 图 1-1 展示 了 FullServe 
数据 库 集 合 的 一 个 简单 版 本 。 人 力 资源 部 有 一 个 存储 员工 信息 的 数据 库 ， 全 职员 工 和 临时 
工分 开 ， 还 有 另外 一 个 单独 存放 申请 者 简历 的 数据 库 ， 包 括 现 有 员工 的 简历 。 培 训 和 发 展 
部 有 一 个 单独 的 数据 库 用 来 保存 每 个 员工 接受 的 培训 课程 ， 包 括 内 部 和 外 部 的 培训 课程 。 


日 ”这 里 提 到 的 公司 名 字 和 它们 之 间 的 业务 往来 纯 属 虚构 ， 但 在 当今 的 市 场 中 很 常见 。 
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销售 部 门 有 一 个 保存 服务 和 当前 订购 者 的 数据 库 ， 另 一 个 数据 库 保 存 产品 和 客户 信息 。 最 
后 ， 客 户 服务 部 门 维护 着 一 个 数据 库 ， 用 于 保存 他 们 的 客户 服务 热线 收 到 的 用 户 来 电 和 电 
话 内 容 详 细 信息 。 
FullServe 收购 EuroCard 公司 后 ， 也 继承 了 他 们 的 数据 库 ， 如 图 1-2 所 示 。EuroCard 有 一 些 
和 FullServe 类 似 的 数据 库 ， 但 由 于 各 自 不 同 的 地 理 位 置 和 业务 重点 ， 也 有 一 些 明显 的 差异 。 
Employee 数据 库 Resume 数据 库 
Emp(ID, firstNameMiddlelnitial, Interviews(ID, date, location, 


lastName, salary) recruiter) 
Hire(iD, hireDate, recruiter) CVs(candID, resume) 


Credit Card 数据 库 HelpLine 数据 库 
Cards(CustiD, cardNum, Calls(date, agent, custiD, 
expiration, currentBalance) description, followup) 
Customers(CustID, name, 
address) 





图 1-2 EuroCard 的 一 些 数据 库 。 可 以 看 出 ，EuroCard 组 织 数据 的 方式 和 FullServe 
有 很 大 不 同 。 例 如 ，EuroCard 没有 把 全 职员 工 和 临时 工分 开 存储 。 
FullServe 的 员工 雇用 数据 一 部 分 保存 在 简历 (Resume) 数据 库 中 ， 另 一 
部 分 保存 在 员工 数据 库 中 ， 而 EuroCard 仅 在 员工 数据 库 中 保存 雇用 日 期 


有 很 多 原因 导致 一 个 公司 的 数据 分 散在 多 个 不 同 的 数据 库 ， 而 不 是 集中 存储 在 一 个 精 
心 设 计 的 数据 库 中 。 在 FullServe 和 EuroCard 的 案例 中 ， 多 个 数据 库 是 通过 收购 兼并 得 到 
的 。 公 司 进 行内 部 重组 时 ， 应 及 时 调整 相应 的 数据 库 。 例 如 ， 当 FullServe 服务 部 门 和 产品 
部 门 被 合并 时 ， 可 能 并 没有 合并 其 数据 库 ， 因 此 公司 有 两 个 单独 的 数据 库 。 其 次 ， 大 多 数 
数据 库 的 产生 都 是 因为 公司 中 的 某 个 组 织 在 某 段 时间 需 要 一 些 特定 的 信息 。 当 创建 数据 库 
时 ， 创 建 人 并 不 能 预见 公司 未 来 的 所 有 信息 需求 以 及 他 们 今天 存储 的 数据 将 来 可 能 会 有 其 
他 的 用 途 。 例 如 ，FullServe 现 有 的 培训 (Training) 数据 库 在 最 开始 的 时 候 可 能 是 由 少数 
员工 发 起 的 一 个 小 项 目 ， 用 来 记录 谁 参加 了 某 些 培训 课程 。 但 是 ， 随 着 公司 的 发 展 以 及 培 
训 和 发 展 部 门 的 创建 ， 这 个 数据 库 就 需要 进行 相应 的 扩展 。 总 之 ， 由 于 这 样 或 那样 的 因 
素 ， 大 型 企业 通常 有 几 十 个 甚至 数 百 个 不 同 的 数据 库 。 

我 们 考虑 FullServe 的 员工 或 经 理 可 能 会 用 到 的 几 个 查询 ， 所 有 这 些 查询 都 需要 跨 多 个 
数据 库 。 

。 现在 FullServe 是 一 家 大 公司 ， 人 力 资 源 部 需要 能 够 查询 所 有 员工 ， 无 论 是 在 美国 

还 是 在 欧洲 。 收 购 后 ， 员 工 的 数据 存储 在 多 个 数据 库 中 : 美国 的 两 个 数据 库 (全 
职员 工 和 临时 工 ) 和 欧洲 的 一 个 数据 库 。 
© FullServe 有 一 个 客户 服务 热线 ， 客 户 可 以 打 电 话 咨询 他 们 从 公司 获得 的 任何 服务 
或 产品 。 至 关 重 要 的 是 ， 当 客户 代表 与 客户 通电 话 时 ， 他 需要 看 到 该 客户 从 
FullServe 获得 的 整套 服务 ， 无 论 是 互联 网 服务 、 信 用 卡 或 者 购买 的 产品 。 特 别 是 ， 
当 客 户 打 电话 来 的 时 候 ， 如 果 客 户 代表 能 够 知道 他 是 一 个 经 常 使 用 信用 卡 的 大 客 
户 ， 会 非常 有 用 ， 即 使 这 个 客户 只 是 打 电 话 来 抱怨 他 的 互联 网 服务 问题 。 即 使 是 
这 样 一 个 简单 的 场景 ， 获 得 一 个 完整 的 客户 视图 ， 也 至 少 需要 从 3 个 数据 库 中 获 
得 数据 。 

。 FullServe 要 建立 一 个 网 站 ， 作 为 其 电话 客服 专线 的 补充 。 在 网 站 上 ， 现 有 的 和 洪 
在 的 客户 应 该 能 够 看 到 FullServe 提供 的 所 有 产品 和 服务 ， 并 可 以 选择 捆绑 式 服 务 。 
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因此 ， 客 户 必须 能 够 看 到 他 现 有 的 服务 ， 以 及 任何 其 他 服务 的 可 用 性 和 定价 。 这 
同样 需要 从 公司 的 多 个 数据 库 中 获取 数据 。 

e 更 进一步 ， 假 设 FullServe 想 与 其 他 厂商 一 起 提供 一 套 品 牌 服务 。 比 如 ， 可 以 得 到 
你 最 喜欢 的 运动 队 发 行 的 信用 卡 ， 但 实际 上 还 是 由 FullServe 提供 服务 。 在 这 种 情 
况 下 ，FullServe 需要 为 其 他 网 站 (如 那些 运动 队 的 网 站 ) 提供 一 个 Web 服务 ， 为 
访问 这 些 网 站 的 客户 提供 一 个 单 点 登录 。 该 Web 服务 也 需要 访问 FullServe 的 多 个 
相应 的 数据 库 。 

© 政府 的 法 律 法 规 经 常 改 变 ， 这 些 法 律 法 规 影 响 着 公司 如 何 开 展业 务 。 为 了 避免 可 
能 的 违规 行为 ，FullServe 需要 主动 采取 一 些 措施 。 第 一 步 ，FullServe 需要 知道 他 
们 的 员工 在 加 入 公司 之 前 是 否 在 其 竟 争 对 手 或 合作 伙伴 的 公司 里 工作 过 。 要 应 答 
这 样 的 查询 就 会 涉及 将 员工 数据 库 和 简历 数据 库 结 合 起 来 。 而 简历 往往 是 非 结构 
化 的 文本 ， 并 没有 很 好 地 组 织 数 据 ， 这 又 给 连接 带 来 了 困难 。 

© 结合 来 自 多 个 数据 源 的 数据 可 以 给 公司 带 来 机 会 ， 获 得 竞争 优势 ， 并 找到 需要 改 
进 的 问题 。 比 如 前 面 提 到 的 一 个 例子 ， 把 客户 服务 热线 (HelpLine) 数据 库 和 销 
售 (Sales) 数据 库 中 的 数据 结合 起 来 ， 将 帮助 FullServe 在 早期 发 现 他 们 的 产品 和 
服务 中 的 问题 。 发 现 不 同 产 品 的 使 用 趋势 可 以 使 FullServe 积极 主动 地 设 定 和 维持 
库存 水 平 。 更 进一步 ，FullServe 可 能 会 发 现 某 一 地 区 接 到 的 有 关 他 们 服务 故障 的 
呼叫 超 乎 寻常 得 多 。 再 仔细 看 看 这 个 数据 就 会 发 现 ， 安 装 服务 的 代理 商 并 没有 参 
加 应 有 的 培训 课程 。 要 发 现 这 样 一 个 模式 ， 需 要 从 培训 数据 库 、 客 户 服务 热线 数 
据 库 和 服务 (Services) 数据 库 中 获取 数据 ， 这 都 涉及 将 分 布 在 公司 不 同 地 方 的 数 
据 进 行 合 并 的 问题 。 <<< 


例 1.2 考虑 需要 数据 集成 的 另 一 个 不 同 的 例子 。 假 设 你 正在 找 工作 ， 想 利用 网 络 上 
的 资源 。 网 络 上 有 成 千 上 万 的 网 站 和 数据 库 保存 着 工作 信息 (参见 图 1-3 的 两 个 例子 ) 。 
在 这 些 网 站 中 ， 通 常会 看 到 的 一 种 形式 是 ， 让 你 填写 一 些 个 人 信息 (例如 ， 职位、 工作 所 
在 地 、 期 望 的 工资 水 平 ) ， 然 后 会 给 你 列举 一 些 相关 的 职位 。 不 幸 的 是 ， 每 个 网 站 要 填 的 
信息 略 有 不 同 。 例 如 图 1-3 的 左 侧 ，Monster 网 站 要 求 填写 与 工作 相关 的 关键 字 、 工 作 地 
点 、 公 司 、 行 业 和 工作 类 别 ， 而 右 侧 CareerBuilder 网 站 则 允许 你 从 一 些 选 项 菜单 中 选择 几 
个 工作 地 点 和 工作 类 别 ， 并 可 以 让 你 进一步 指定 薪水 范围 。 

因此 ， 访 问 很 多 这 样 的 网 站 是 非常 讨厌 的 ， 特 别 是 每 天 都 得 这 样 做 来 跟 上 新 发 布 的 职 
位 。 理 想 情 况 下 ， 只 需要 访问 一 个 网 站 ， 在 上 面 发 布 一 个 查询 ， 让 这 个 网 站 帮助 你 整合 所 
有 相关 网 站 中 的 数据 。 

更 一 般 地 ， 网 络 中 包含 数 百 万 的 数据 库 ， 其 中 一 些 数 据 库 骨 入 在 网 页 中 ， 其 他 一 些 可 
通过 Web 表单 来 访问 。 它 们 包含 很 多 领域 的 数据 ， 从 普通 的 分 类 广告 和 产品 数据 ， 到 艺 
术 、 政 治 和 公共 记录 数据 。 要 支持 这 个 超大 的 数据 集 有 几 个 重大 的 挑战 。 首 先 ， 我 们 面临 
的 挑战 是 超大 规模 数据 库 集合 的 模式 异 构 性 : 数 百 万 的 表 由 不 同 的 人 用 上 百 种 语言 来 创 
建 。 其 次 ， 提 取 数 据 相 当 困 难 。 当 通过 表单 来 访问 数据 时 (通常 简称 为 深层 网 络 (Deep 
Web) 或 隐 式 网 络 (Invisible Web) ) ， 我 们 要 么 使 用 智能 怜 虫 从 表单 中 爬 取 数 据 ， 要 么 在 
运行 时 构建 良好 的 查询 来 获取 数据 。 对 于 艇 入 在 网 页 中 的 数据 ， 如 何 从 周围 的 文字 中 提取 
表 ， 并 确定 表 结 构 是 非常 有 挑战 性 的 。 当 然 ，Web 上 的 数据 往往 是 错 的 、 过 时 的 ， 甚 至 是 
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矛盾 的 。 因 此 ， 从 这 些 数据 源 获得 答案 ， 需 要 不 同 的 方法 来 对 数据 进行 组 合 和 排序 。 
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图 1-3 网 络 上 查找 工作 的 不 同 表格 的 例子 。 可 以 看 出 ,不 同 的 
表格 在 要 求 填写 的 字段 和 使 用 的 格式 方面 有 所 不 同 <<< 


上 述 两 个 例子 说 明了 常见 数据 集成 的 情况 ， 重 在 强调 数据 集成 问题 的 普遍 性 。 数 据 集 
成 在 诸如 生物 学 、 生 态 系统 和 水 资源 管理 这 样 的 科学 领域 中 是 一 个 关键 的 挑战 。 在 这 些 领 
域 中 ， 科 学 家 团队 常常 独立 地 收集 数据 ， 并 试图 与 另 一 个 团队 合作 ， 数 据 集成 能 够 极 大 地 
促进 这 些 学 科 的 进步 。 数 据 集 成 对 于 政府 管理 也 是 一 个 极 大 的 挑战 ， 它 能 够 使 政府 的 不 同 
机 构 更 好 地 协调 工作 。 最 后 ， 聚 合 (mash-up) 是 现在 流行 的 一 种 Web 上 的 信息 可 视 化 的 
范例 ， 而 每 一 个 聚合 应 用 就 是 建立 在 对 多 个 不 同 来 源 的 数据 集成 之 上 的 。 
总 而 言 之 ， 数 据 集成 系统 的 目标 就 是 为 一 组 自治 和 异 构 的 数据 源 提供 一 个 统一 的 访问 
入 口 。 具 体 来 说 ， 就 是 : 
© 查询 处 理 : 大 多 数 数据 集成 系统 的 重点 是 提供 对 不 同 数据 源 的 查询 。 不 过 ， 对 不 
同 的 数据 源 进 行 更 新 同样 是 需要 关注 的 问题 。 
。 数据 源 数量 : 对 少数 几 个 〈 少 于 10 个 ， 甚 至 常常 只 是 2 个 ) 数据 源 的 集成 已 经 是 
一 个 挑战 了 ， 当 数据 源 的 数量 增加 时 ， 这 个 挑战 的 难度 将 急剧 增加 。 最 极端 的 情 
况 就 是 网 络 规模 的 数据 集成 。 
© 异 构 性 : 一 个 典型 的 数据 集成 方案 涉及 的 数据 源 在 开发 的 时 候 往往 都 是 相互 独立 
的 。 因 此 ， 这 些 数据 源 运 行 在 不 同 的 系统 上 : 有 些 是 数据 库 ， 但 其 他 的 可 能 是 内 
容 管理 系统 ， 甚 至 只 是 保存 在 一 个 目录 下 的 一 些 文件 。 这 些 不 同 的 数据 源 有 不 同 


的 模式 ， 还 会 引用 各 种 对 象 ， 即 使 它们 都 是 描述 同一 个 领域 。 一 些 数据 源 可 能 是 
完全 结构 化 的 (例如 ， 关 系数 据 库 ) ， 而 另 一 些 则 可 能 是 非 结 构 化 或 半 结 构 化 的 
(例如 ，XML、 文 本 )。 

。 Bist: 数据 源 未 必 属 于 一 个 组 织 机 构 ， 即 便 属于 ， 它 们 也 可 能 是 在 不 同 的 子 组 
织 中 运转 。 因 此 ， 我 们 可 能 并 不 能 随心 所 欲 地 访问 数据 源 ， 并 且 ， 适 当 的 时 候 我 
们 还 需要 考虑 数据 隐私 的 保护 。 此 外 ， 数 据 源 可 以 在 任何 时 候 改 变 自 己 的 数据 格 
式 和 访问 模式 ， 而 无 需 通 知 任何 中 央 管 理 机 构 。 


1.2 数据 集成 面临 的 挑战 


为 了 有 效 地 解决 数据 集成 问题 ， 首 先 需 要 探究 其 困难 的 原因 所 在 。 本 节 首 先 概括 地 描 
述 这 些 原因 ， 本 书后 面 还 会 对 其 进行 详细 阐述 。 这 些 原 因 大 致 可 以 分 为 以 下 三 类 : 系统 原 
因 、 逮 辑 原因 、 社 会 和 管理 原因 。 下 面 分 别 介绍 这 三 类 挑战 。 


1.2.1 系统 原因 


数据 集成 中 面临 的 系统 方面 的 挑战 是 显而易见 的 ， 并且 在 早期 ， 当 我 们 试图 建立 一 个 
集成 应 用 程序 时 ， 这 个 挑战 就 出 现 了 。 从 根本 上 说 ,这些 挑战 是 如 何 使 不 同 的 系统 之 间 能 
够 无 颖 交流。 即使 假设 所 有 系统 都 运行 在 同一 个 硬件 平台 上 ， 并 且 全 部 使 用 支持 SQL 标准 
和 ODBC/AJDBC 的 关系 数据 库 系统 ， 这 个 问题 也 已 经 很 不 容易 了 。 比 如 说 ,虽然 SQL 是 一 
种 用 于 关系 数据 库 的 标准 查询 语言 ， 但 不 同 供应 商 的 实现 方式 也 有 差异 ， 在 集成 过 程 中 ， 
这 些 差 异 就 需要 进行 协调 。 

如 何 有 效 地 执行 跨 系统 的 查询 ， 更 是 一 大 挑战 。 分 布 式 数据 库 (数据 库 中 的 数据 被 划 
分 到 多 个 节点 ) 中 的 查询 处 理 已 经 是 一 个 困难 的 问题 。 我 们 只 能 希望 数据 在 分 布 式 数据 库 
中 是 按照 某 种 先 验 分 布 规则 来 分 散 存 储 到 不 同 的 节点 ， 并 且 是 以 一 种 已 知 且 有 组 织 的 形式 
存放 。 在 数据 集成 中 ， 面 临 的 是 已 经 存在 的 数据 源 ， 而 数据 的 结构 往往 非常 复杂 ， 并 且 不 
一 定 是 已 知 的 。 此 外 ， 每 个 数据 源 提供 的 查询 处 理 能 力也 大 不 相同 。 例 如 ， 一 个 数据 源 可 
能 是 一 个 完整 的 SQL 数据 库 ， 因 此 可 以 接受 非常 复杂 的 查询 ， 而 另 一 个 数据 源 可 能 是 一 个 
Web 表单 ， 因 此 只 能 提供 简单 的 查询 。 


1.2.2 逻辑 原因 


第 二 类 挑战 来 源 于 数据 的 逻辑 结构 。 在 大 多 数 情况 下 ， 结 构 化 的 数据 源 是 根据 模式 来 
组 织 数据 的 。 对 关系 数据 库 来 说 ， 一 般 情况 下 ， 模 式 指定 了 一 些 表 ， 每 个 表 都 具有 一 组 属 
性 及 相应 的 数据 类 型 。 在 其 他 的 数据 模型 下 ， 模 式 可 以 由 特定 的 标签 、 类 和 属性 来 体现 。 
人 天 生 有 这 样 的 特点 ， 即 当 两 个 人 面 对 完 全 相同 的 数据 库 应 用 需求 时 ， 他 们 会 设计 出 
非常 不 同 的 数据 库 模式 ?。 因 此 ， 当 数据 来 自 多 个 数据 源 时 ， 其 差别 是 不 可 避免 的 。 
对 比 FullServe 和 EuroCard 的 数据 库 模 式 ， 可 以 发 现 很 多 不 同 : 
© EuroCard 把 临时 工 和 全 职员 工 都 保存 在 同一 个 数据 库 表 中 ， 而 FullServe 用 两 个 表 
来 分 别 存储 这 两 类 数据 。 这 可 能 是 因为 FullServe 把 其 临时 工 承 包 给 一 个 外 部 机 构 


O 人 的 这 种 本 性 对 于 数据 库 专家 来 说 并 不 陌生 ， 而 且 还 常 被 用 来 检测 数据 库 作 假 。 





来 管理 。 
e 即使 只 是 对 员工 的 建 模 ，FullServe 和 EuroCard 使 用 的 属性 也 并 不 相同 。 例 如 ， 
EuroCard 使 用 ID 即 居 民 身 份 证 号 来 确定 员工 。 而 FullServe 不 但 记录 社会 保障 号 
码 ， 同 时 也 分 配 一 个 雇员 ID (因为 在 某 些 情况 下 ， 出 于 隐私 保护 的 原因 ， 社 会 安 
全 号 不 能 作为 主键 ) FullServe 把 hireDecision (招聘 意见 ) 和 hireDate (招聘 日 
期 ) 属性 记录 在 简历 数据 库 中 ， 而 EuroCard 并 没有 专门 设置 这 些 属 性 ， 他 们 简单 
地 假设 这 些 信 息 可 以 用 适当 的 SQL 语句 通过 查询 员工 数据 库 来 获得 。 另 一 方面 ， 
EuroCard 对 每 一 次 面试 地 点 也 进行 存储 ， 而 FullServe 没有 。 
e。 即使 是 对 完全 相同 的 属性 进行 建 模 ，FullServe 和 EuroCard 也 可 能 会 使 用 不 同 的 属 
性 名 称 。 例 如 ，FullServe 的 客户 服务 热线 数据 库 使 用 text 和 action 属性 ， 而 在 
EuroCard 的 数据 库 中 相应 的 属性 名 为 description 和 followup, 
最 后 ， 数 据 的 表示 也 可 能 有 显著 不 同 。 例 如 ， 在 FullServe 公司 的 员工 数据 库 里 ， 每 一 
个 员工 的 名 字 被 分 成 姓 (lastName) 、 中 间 名 (middleName) 和 名 (firstName) 3 个 字段 来 
保存 。 而 在 培训 数据 库 中 ， 只 用 一 个 字段 来 保存 员工 的 全 名 。 因 此 ， 名 字 经 常 以 不 同 的 格 
式 出 现 , 如 (名, 姓 ) 或 GE, 名 的 首 字母 )。 因 此 ， 匹 配 这 两 个 数据 库 中 的 记录 可 能 非 
常 困难 。 同 样 的 问题 也 发 生 在 销售 数据 库 和 服务 数据 库 之 间 。 销 售 数据 库 用 两 个 字段 来 记 
录 一 个 客户 : 姓名 和 地 址 ， 而 服务 数据 库 更 细 地 记录 了 每 个 用 户 的 信息 。 当 然 ， 度量 单 位 
也 不 同 : FullServe 采用 美国 美元 的 价格 ， 而 EuroCard 使 用 欧元 。 由 于 汇率 不 断 变化 ， 要 提 
前 设 定 值 之 间 的 一 个 对 应 关系 是 不 可 能 的 。 
要 把 多 个 数据 源 集 成 起 来 ， 唯 有 解决 它们 之 间 的 语义 异 构 问 题 。 事 实 上 ， 如 何 解决 语 
义 的 异 构 ， 是 数据 集成 的 一 个 主要 瓶颈 。 


1.2.3 社会 和 管理 原因 


我 们 要 说 的 最 后 一 类 原因 并 不 像 前 两 类 一 样 属于 技术 范畴 ， 但 往往 和 前 两 类 一 样 困 
难 ， 并 很 容易 导致 数据 集成 项 目的 失败 。 我 们 的 首要 任务 ， 也 是 第 一 个 挑战 ， 可 能 是 寻找 
需要 的 数据 。 例 如 ，EuroCard 可 能 根本 就 没有 保存 员工 的 电子 简历 ， 我 们 还 需要 花费 额外 
的 努力 去 找 出 所 有 文件 并 把 它们 扫描 进 计算 机 里 。 

即使 已 经 知道 了 所 有 的 数据 保存 在 哪里 ， 数 据 的 所 有 者 也 可 能 不 愿意 配合 数据 的 整 
合 。 当 数据 的 所 有 者 来 自 不 同 公司 或 大 学 时 ， 他 们 往往 会 有 一 些 显而易见 的 不 愿 分 享 数据 
的 原因 ， 即 使 在 同一 企业 中 ， 数 据 的 所 有 者 往往 也 不 情愿 共享 信息 。 在 某 些 情况 下 ， 可 能 
是 因为 他 们 的 数据 关系 到 企业 的 一 些 关 键 业 务 ， 人 允许 来 自 数据 集成 系统 的 额外 查询 可 能 会 
给 他 们 的 系统 带 来 难以 承受 的 高 负荷 。 在 其 他 情况 下 ， 可 能 是 因为 一 些 数据 只 能 被 企业 内 
部 特定 的 人 员 看 到 ， 数 据 的 所 有 者 有 理由 担心 数据 集成 系统 无 法 强制 执行 这 些 限制 。 最 
后 ， 在 某 些 情况 下 ， 人 们 划 定 数据 领地 一 一 在 这 里 ， 对 数据 的 访问 意味 着 在 组 织 内 拥有 更 
多 的 权力 。 例 如 ， 销 售 部 门 的 领导 可 能 不 想 共 享 销售 代表 的 工作 数据 ， 因 为 它 可 能 会 透露 
一 些 内 部 问题 。 

值得 注意 的 是 ， 在 少数 情况 下 〈 例 如 那些 涉及 医疗 记录 或 执法 的 数据 ) ， 出 于 法 律 上 
的 原因 ， 数 据 所 有 者 也 不 可 以 共享 数据 。 正 因为 这 种 情况 的 存在 ， 匿 名 数据 的 发 布 一 直 是 
计算 机 领域 研究 的 一 个 热门 话题 。 








虽然 我 们 不 能 期 望 仅仅 使 用 技术 手段 来 解决 管理 问题 ， 但 是 技术 可 以 帮助 数据 拥有 者 
通过 数据 集成 来 获得 最 大 的 好 处 ， 从 而 鼓励 他 们 参与 。 例 如 ， 数 据 集成 带 来 的 一 大 好 处 就 
是 ， 数 据 可 以 被 更 多 的 人 看 到 ， 从 而 产生 更 广泛 的 影响 〈 例 如 ， 如 果 数 据 出 现在 网 络 搜索 
引擎 的 相关 搜索 结果 中 ) 。 另 一 个 例子 是 ， 一 个 设计 良好 的 数据 集成 系统 可 以 使 数据 的 归 
属 始终 是 明确 的 〈 即 使 搜索 结果 是 从 多 个 数据 源 集中 起 来 的 ) ， 从 而 可 以 给 予 数 据 所 有 者 
适当 的 可 信和 度 评级 。 


1.2.4 设 定 预期 





数据 集成 是 一 个 很 难 的 问题 ， 有 些 人 说 ， 它 永远 不 会 被 彻底 解决 〈 也 许 从 而 保证 了 这 
本 书 可 以 永 享 读者 ) 。 在 我 们 从 不 同方 面 讨论 数 据 集成 的 解决 方案 之 前 ， 重 要 的 是 要 设置 
适当 的 预期 。 

在 理想 情况 下 ， 我 们 想 通 过 一 个 数据 集成 系统 来 提供 对 一 组 数据 源 的 访问 ， 系 统 自动 
进行 配置 ， 以 便 它 可 以 正确 而 高 效 地 回答 跨 多 个 数据 源 的 查询 。 由 于 这 个 理想 的 目标 是 不 
可 能 达到 的 ， 所 以 我 们 专注 于 两 个 较为 实际 的 目标 。 第 一 个 目标 是 构建 工具 来 减少 整合 一 
组 数据 源 所 需要 付出 的 努力 。 例 如 ， 这 些 工 具 应 该 易于 添加 新 的 数据 源 、 将 模式 关联 到 其 
他 数据 源 、 自 动 调整 数据 集成 系统 以 获得 更 好 的 性 能 。 

第 二 个 目标 是 提高 系统 在 不 确定 环境 下 回答 用 户 查询 的 能 力 。 显 然 ， 如 果 数 据 集成 系 
统 必 须 始终 返回 正确 且 完 整 的 答案 ， 那 么 不 确定 性 是 不 可 容忍 的 。 但 在 一 些 应 用 中 (比如 
网 络 搜索 ) ， 数 据 集成 系统 应 该 能 够 回答 不 确定 性 条 件 下 的 查询 。 例 如 ， 当 我 们 在 网 络 上 
找 工 作 时 ， 假 如 符合 搜索 条 件 的 工作 是 30 个 ,那么 返回 的 结果 中 能 包含 其 中 的 29 个 就 已 
经 可 以 了 ， 或 者 返回 的 结果 和 用 户 提出 的 要 求 并 不 完全 吻合 也 没关系 。 

从 某 种 意义 上 说 ， 在 建立 一 个 数据 集成 应 用 时 ， 减 少 用 户 的 负担 和 提高 准确 性 是 不 可 
两 全 的 。 花 的 时 间 越 多 ， 系 统 就 越 准确 。 因 此 ， 在 我 们 愿意 牺牲 准确 率 从 而 减少 花费 的 时 
间 和 精力 的 情况 下 ， 其 目标 可 以 表述 为 用 户 以 较 小 的 代价 从 数据 集成 系统 中 获得 更 好 的 
结果 。 


1.3 数据 集成 架构 


作为 本 书后 面 讨论 内 容 的 基础 ， 我 们 简要 介绍 数据 集成 系统 的 架构 。 数 据 集成 有 很 多 
种 可 能 的 架构 ， 但 大 致 来 说 ， 大 多 数 系统 都 介 于 数据 仓库 和 虚拟 集成 系统 之 间 。 数 据 仓库 
就 是 把 来 自 各 个 独立 数据 源 的 数据 加 载 并 存储 到 一 个 物理 数据 库 〈 称 为 数据 仓库 ) 中 ， 然 
后 就 可 以 在 这 些 数据 上 进行 查询 等 操作 。 在 虚拟 集成 系统 中 ， 数 据 还 是 保存 在 原来 的 数据 
源 中 ， 只 在 需要 查询 时 才 被 访问 。 尽 管 在 方法 上 有 差异 ， 但 这 些 架构 面临 的 许多 困难 和 挑 
战 是 相同 的 。 


1. 3.1 数据 集成 系统 的 组 成 部 分 


图 1-4 显示 了 前 面 提 到 的 两 种 数据 集成 系统 的 逻辑 组 件 。 我 们 现在 先 以 虚拟 集成 系统 
为 例 来 描述 这 些 组 件 ， 然 后 再 对 比 地 看 数据 仓库 的 情况 。 

在 图 1-4 的 最 下 方 是 数据 源 。 数 据 源 可 以 在 许多 方面 有 所 不 同 ， 如 采用 的 数据 模型 和 
支持 的 查询 。 结 构 化 的 数据 源 通 常 包括 支持 SQL 的 数据 库 系统 ， 带 有 XQuery 接口 的 XML 
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数据 库 ， 以 及 仅 支持 一 组 有 限 查询 (与 输入 域 的 有 效 组 合 数 有 关 ) 的 Web 表单 。 在 某 些 
情况 下 ， 数 据 源 可 以 是 一 个 由 数据 库 驱动 的 实际 应 用 程序 ， 例 如 会 计 系 统 。 在 这 种 情况 
下 ， 查 询 实 际 上 还 可 能 会 涉及 对 数据 进行 处 理 的 应 用 程序 。 

查询 重 写 /基于 物化 

的 查询 


中 介 模 式 或 数据 仓库 
| J A = 
M 








源 描 述 /转换 


图 1-4 一 个 通用 数据 集成 系统 的 基本 架构 。 数 据 源 可 以 是 关系 数据 库 、XML 或 任何 包含 结构 
化 数据 的 存储 实体 。 包 装 器 或 加 载 器 请 求 并 解析 数据 源 。 中 介 模 式 或 中 央 数 据 仓库 把 
来 自 各 个 源 的 数据 整合 起 来 ， 用 户 就 可 以 在 其 上 发 布 查 询 。 在 数据 源 和 中 介 模 式 之 
间 ， 需 要 有 数据 源 的 描述 和 相关 的 模式 映射 ， 用 于 将 数据 从 各 个 源 转换 成 全 局 的 数据 


在 数据 源 之 上 ， 是 负责 与 数据 源 进 行 通信 的 程序 。 在 虚拟 数据 集成 系统 中 ， 这 些 程序 
被 称 为 包装 器 ， 它 们 的 作用 是 将 查询 发 送 到 数据 源 ， 接 收 返回 的 结果 ， 并 可 能 对 结果 进行 
一 些 基 本 变换 。 例 如 ， 一 个 针对 Web 表单 数据 源 的 包装 器 负责 接收 查询 ， 并 把 它 转 换 成 
相应 的 附带 查询 参数 的 URL， 然 后 把 这 个 HTTP 请 求 发 送出 去 。 当 数据 源 以 HTML 文件 的 
形式 将 结果 返回 到 客户 端 时 ， 包 装 器 又 负责 从 HTML 文件 中 提取 出 数据 元 组 。 

用 户 通过 一 个 单一 的 模式 与 数据 集成 系统 进行 交互 ， 该 模式 称 为 中 介 模 式 。 中 介 模 式 
是 专 为 数据 集成 应 用 建立 的 ， 它 只 包含 与 该 应 用 有 关 的 域 。 因 此 ， 它 并 不 一 定 包含 我 们 在 
数据 源 中 看 到 的 所 有 属性 ， 而 只 是 其 中 的 一 个 子 集 。 在 虚拟 集成 系统 中 ， 中 介 模 式 并 不 意 
昧 着 它 真正 存储 任何 数据 ， 而 只 是 一 个 纯粹 的 逻辑 架构 ， 供 用 户 〈 应 用 ) 向 数据 集成 系统 
发 布 查询 。 

构建 数据 集成 应 用 的 关键 是 数据 源 描述 ， 它 是 连接 中 介 模 式 和 数据 源 模式 的 纽带 。 这 
些 描述 指定 了 系统 可 以 通过 哪些 属性 来 使 用 数据 源 中 的 数据 。 数 据 源 描述 的 主要 成 分 是 语 
义 映 射 ， 它 把 数据 源 模式 和 中 介 模 式 关 联 起 来 。 语 义 映 射 指 定数 据 源 中 的 属性 如 何 对 应 于 
中 介 模 式 中 的 属性 〈 如 果 这 样 的 对 应 关系 存在 ) ， 并 解决 如 何 把 属性 分 配 到 不 同 的 表 中 。 
此 外 ， 不 同 数 据 源 对 数据 的 值 有 不 同 的 规定 ， 语 义 映射 明确 了 怎样 解决 这 些 不 同 。 需 要 强 
调 的 是 ， 虚 拟 数据 集成 架构 只 需要 指定 数据 源 和 中 介 模 式 之 间 的 映射 ， 而 不 指定 每 对 数据 
源 之 间 的 映射 关系 。 因 此 ， 我 们 指定 的 映射 个 数 与 数据 源 的 个 数 是 相等 的 ， 而 不 是 数据 源 
个 数 的 平方 。 此 外 ， 语 义 映 射 是 声明 式 的 ， 这 使 得 数据 集成 系统 可 以 推测 出 数据 源 的 内 容 
及 其 与 所 给 查询 之 间 的 关联 ， 并 优化 查询 执行 。 














在 数据 仓库 的 方式 中 ， 用 户 面 对 的 是 数据 仓库 模式 ， 而 不 是 虚拟 的 中 介 模 式 。 数 据 仓 
库 模 式 不 仅仅 包含 了 数据 源 的 必要 属性 ， 而 且 它 还 是 一 个 物理 模式 ， 背 后 由 一 个 数据 库 实 
例 来 支撑 着 。 与 虚拟 集成 不 同 ， 数 据 仓库 不 使 用 包装 器 ， 而 是 用 ETL 或 其 他 的 工具 来 定期 
地 抽取 - 转换 - 加 载 来 自 各 个 数据 源 的 数据 。 不 同 于 包装 器 ，ETL 工具 通常 还 对 数据 进行 
更 复杂 的 处 理 ， 可 能 涉及 数据 清洗 、 聚 集 和 值 转换 。 这 些 处 理 相 当 于 虚拟 数据 集成 架构 中 
的 模式 映射 ， 但 往往 更 加 程序 化 。 

数据 仓库 的 一 些 特性 源 于 这 些 系 统 在 开发 之 初 并 不 是 以 数据 集成 为 目的 的 。 相 反 ， 它 
们 是 为 进行 更 深入 的 分 析 而 开发 的 工具 ， 比 如 把 交易 系统 (记录 商店 的 每 一 笔 销 售 的 数据 
PE) 的 数据 上 传 到 一 个 数据 库 里 ， 再 对 数据 进行 汇总 和 清理 ， 从 而 可 以 为 决策 支持 提供 查 
询 ( 例 如 ， 查 询 特定 产品 在 各 地 区 的 销售 额 )。 从 交易 系统 将 数据 转换 到 数据 仓库 可 能 涉 
及 相当 复杂 的 转换 和 聚集 。 我 们 将 在 第 10 章 中 详细 讨论 数据 仓库 和 它 的 一 些 变种 ， 但 本 
书 中 的 绝 大 多 数 讨论 都 是 围绕 数据 集成 的 虚拟 集成 方法 ， 因 为 它 最 能 说 明 数 据 集成 的 主要 [11 | 


概念 。 
1.3.2 数据 集成 实例 
如 图 1-5 所 示 ， 下 面 的 例子 说 明了 一 个 完整 的 数据 集成 方案 。 


TS 了 ES 
SI -| sz2L 2 “(~ 
Movies (name, Cinemas (place, CinemasinNYC CinemasiInSF Reviews (title, 
actors, director, movie, start) (cinema, title, (location, movie, date, grade, 
genre) startTime) startingTime) review) 








Movie (title, director, year, genre) 
Actors (title, actor) 

Plays (movie, location, startTime) 

Reviews (title, rating, description) 











图 1-5 数据 集成 方案 的 一 个 例子 。 查 询 结果 来 自 于 电影 
详细 信息 、 影 院 排 片 表 和 影评 资料 等 数据 源 


RH A PH et 

在 这 个 例子 中 ， 我 们 有 5 个 数据 源 。 第 一 个 是 最 左边 的 S1， 它 存储 电影 数据 ， 包 括 
电影 的 名 字 、 演 员 、 导 演 和 类 型 。 接 下 来 的 3 个 数据 源 S2 ~ S4 存储 有 关 场 次 的 数据 。 数 
据 源 S2 包括 了 整个 国家 的 影院 ， 而 S3 和 S4 仅 代表 性 地 存储 了 纽约 和 旧金山 的 影院 数 
据 。 需 要 注意 的 是 ， 虽 然 这 3 个 数据 源 都 存储 同一 类 型 的 数据 ， 但 它们 使 用 的 属性 名 是 不 
同 的 。 最 右边 的 数据 源 SS 则 存储 影评 数据 。 

中 介 模 式 包 括 4 个 关系 : Movie (电影 ) Actors (演员 )、Plays (场次 ) 和 
Reviews 〈 评 论 ) 。 注 意 在 中 介 模 式 中 Review (影评 ) 并 不 包含 date (日 期 ) 属性 ， 但 
数据 源 S5 中 保存 着 相关 信息 。 
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数据 源 描述 中 的 语义 映射 描述 了 数据 源 和 中 介 模 式 之 间 的 关系 。 例 如 ， 数 据 源 S1 到 
中 介 模 式 的 映射 将 描述 它 包含 表 Movies， 并 且 表 Movies 中 的 属性 name 与 中 介 模 式 中 
表 Movie 的 属性 title 相对 应 。 它 还 将 指定 中 介 模 式 中 的 表 Actors 是 数据 源 S1 表 Mov- 
ies 中 name 和 actors 两 列 的 投影 。 

同样 ,语义 映射 将 指定 中 介 模 式 的 Plays 关系 中 的 元 组 可 以 从 数据 源 S2, S3, S4 得 
到 ， 并 且 S3 中 元 组 的 属性 location 都 为 纽约 (类 似 地 ，S4 中 元 组 的 属性 location 都 为 
旧金山 )。 

除了 语义 映射 之 外 ， 数 据 源 描述 还 指明 了 数据 源 其 他 方面 的 一 些 信息 。 首 先 ， 它们 指 
明 数 据 源 是 否 是 完整 的 。 例 如 ， 数据 源 S2 可 能 不 包含 整个 国家 所 有 的 电影 放映 时 间 ， 而 
数据 源 S3 包含 所 有 在 纽约 的 电影 放映 时 间 。 其 次 ,数据 源 描述 可 以 指定 对 数据 源 访 问 方 
式 的 限制 。 例 如 ，S1 的 描述 指定 ， 要 想得到 查询 结果 ， 输入 的 查询 语句 中 至 少 要 给 出 一 
个 属性 值 作为 限制 条 件 。 同 样 ， 要 对 其 他 提供 电影 播放 场次 的 数据 源 进 行 查询 ， 必 须 输入 
影片 名 称 。 


查询 你 型 
我 们 使 用 中 介 模 式 中 的 数据 来 向 数据 集成 系统 发 起 查询 。 下 面 的 这 个 查询 语句 想 要 查 
找 Woody Allen (ffi + 30/0) 导演 的 电影 在 纽约 的 放映 时 间 。 


SELECT title, startTime 
FROM Movie, Plays 


WHERE Movie.title = Plays.movie AND location="/ 
AND director="! Alien” 


如 图 1-6 所 示 ， 查 询 的 过 程 按照 如 下 步 又 进行 。 
查询 重 写 ”如 前 所 述 ， 用 户 查询 是 用 中 介 模 式 中 的 术语 构成 的 。 因 此 ， 系 统 要 做 的 第 
一 步 是 把 查询 语句 重 写成 与 数据 源 模式 对 应 的 形式 。 要 做 到 这 一 点 ， 数 据 集成 系统 就 要 使 
用 数据 源 描 述 。 重 写 的 结果 是 一 组 与 数据 源 模 式 相 对 应 的 查询 语句 ， 把 它们 的 执行 结果 组 
合 起 来 就 可 以 得 到 原始 查询 的 结果 。 我 们 把 这 个 重 写 的 结果 称 为 逻辑 查询 计划 。 
重 写 过 程 如 下 : 
。 Movie (电影 ) 的 元 组 可 以 从 数据 源 S1 直接 获得 ， 但 需要 将 属性 title 转换 为 S1 
中 的 name。 
。 Plays (场次 ) 元 组 可 以 从 数据 源 S2 或 S3 得 到 。 由 于 已 知 S3 包含 了 纽约 市 的 完 
整数 据 ， 所 以 我 们 选择 S3 而 不 选择 S2, 
。 由 于 数据 源 S3 需要 输入 电影 的 名 称 进 行 查询 ， 所 以 查询 计划 必须 首先 访问 数据 源 
S1， 然 后 把 从 S1 中 得 到 的 电影 名 称 作为 S3 的 查询 输入 。 
因此 ， 查 询 重 写 引 警 所 产生 的 第 一 个 逻辑 查询 计划 就 是 访问 S1 和 S3 以 便 得 到 查询 
结果 。 然 而 ， 第 二 个 逻辑 查询 计划 也 是 正确 的 ， 即 先 访问 S1， 再 访问 S2 ， 虽 然 得 到 的 结 
果 可 能 不 完整 。 
查询 优化 ”和 传统 的 数据 库 系统 一 样 ， 查 询 处 理 的 下 一 个 步骤 是 查询 优化 。 查 询 优化 
把 一 个 逻辑 查询 计划 转化 为 一 个 物理 查询 计划 ， 物 理 查 询 计划 指定 访问 各 个 数据 源 的 确切 
顺序 ， 在 组 合 查 询 结 果 时 ， 要 用 哪些 算法 来 对 数据 进行 操作 (例如 ， 数据 源 之 间 的 连接 )， 
以 及 给 每 个 操作 分 配 多 少 资源 。 如 前 所 述 ， 该 系统 还 必须 处 理 数据 的 分 布 性 所 带 来 的 
挑战 。 
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图 1-6 数据 集成 系统 的 查询 处 理 与 传统 数据 库 中 的 查询 处 理 主要 有 两 点 不 同 。 第 一 ， 查 询 需 
要 从 中 介 模 式 重 写成 对 应 于 数据 源 模 式 的 形式 。 第 二 ， 查 询 执行 可 能 是 自 适应 的 ， 因 
为 查询 计划 可 能 随 着 查询 的 执行 而 改变 
在 我 们 的 例子 中 ， 优 化 器 将 决定 使 用 哪 种 算法 来 连接 S1 和 S3。 例 如 ， 连 接 算法 可 能 
以 流水 线 的 形式 把 电影 名 称 从 S1 输入 到 S3 ， 或 者 可 能 把 结果 先 缓存 起 来 ， 然 后 再 整 批 发 
送 到 S3 。 
查询 执行 ”最 后 ， 执 行 引 擎 负责 物理 查询 计划 的 实际 执行 。 执 行 引 擎 通过 包装 器 调度 
各 个 数据 源 ， 然 后 将 返回 的 结果 按照 查询 计划 指定 的 形式 组 合 起 来 。 
数据 集成 系统 与 传统 数据 库 系统 的 另 一 个 显著 区 别 在 于 ， 传 统 数据 库 系 统 的 执行 引 
擎 只 是 执行 由 查询 优化 器 发 给 它 的 查询 计划 ， 而 数据 集成 系统 的 执行 引擎 可 能 会 根据 其 
监测 的 查询 计划 的 执行 进展 ， 要 求 优化 器 重新 考虑 查询 计划 。 在 我 们 的 例子 中 ， 执 行 引 
擎 可 能 会 发 现 数 据 源 SS 异常 缓慢 ， 因 此 可 能 会 询问 优化 器 能 否 使 用 其 他 数据 源 来 代 
# S3。 
当然 ， 另 一 种 可 选 办 法 是 在 优化 器 中 为 原始 计划 设 定好 一 些 突 发 事件 。 但 是 ， 如 果 意 
外 执行 的 事件 很 多 ， 原 计划 就 可 能 变 得 很 庞大 。 因 此 ， 在 设计 查询 处 理 引 擎 时 ， 一 个 有 趣 
的 技术 挑战 就 是 如 何平 衡 计划 的 复杂 性 以 及 应 对 意 想不到 的 执行 事件 的 能 力 。 
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1.4 全 书 概览 


本 书 的 其 余部 分 将 详细 阐述 上 述 每 个 组 成 部 分 和 过 程 。 下 面 列 出 每 章 所 涵盖 的 主要 
问题 。 

第 2 章 主要 是 为 之 后 的 讨论 莫 定 理论 基础 。 特 别 是 ， 本 章 还 介绍 有 关 查 询 表达 式 的 操 
作 和 推理 算法 。 这 些 算法 使 我 们 能 够 确定 一 个 查询 是 否 和 另 一 个 查询 是 等 价 的 〈 即 使 它们 
是 完全 不 同 的 写法 ) ， 并 决定 这 个 查询 是 否 可 以 由 数据 库 上 已 有 的 视图 来 得 到 。 这 些 算 法 
对 查询 语句 的 重 写 和 优化 是 必 不 可 少 的 ， 并 且 不 仅 是 在 数据 集成 中 ， 而 且 在 其 他 的 数据 管 
理 情 况 下 也 是 有 用 的 。 

第 3 章 介绍 数据 源 描 述 的 一 般 形 式 ， 特 别 是 语义 映射 。 我 们 描述 了 两 种 使 用 查询 表达 
式 的 语言 来 指定 语义 映射 〈 全 局 视图 (Global as View, GAV) 和 局 部 视图 (Local as 
View，LAV) ) ， 以 及 两 者 的 结合 体 GLAV 语言 。 对 于 每 一 种 语言 ， 描 述 了 相应 的 查询 重 写 
算法 。 我 们 还 描述 如 何 处 理 关 于 数据 源 完整 性 和 关于 数据 源 中 的 数据 访问 限制 的 信息 。 

在 第 4 章 中 ， 我 们 开始 讨论 创建 语义 映射 的 相关 技术 。 事 实证 明 ， 创 建 映射 是 建立 数 
据 集成 应 用 中 的 主要 瓶颈 之 一 。 因 此 ， 我 们 的 重点 是 如 何 用 相关 技术 来 减少 创建 映射 所 需 
的 时 间 。 第 4 章 还 讨论 了 两 个 字符 串 是 否 代表 同一 实体 这 一 根本 问题 。 字 符 串 匹 配 在 匹配 
来 自 多 个 数据 源 的 数据 和 模式 中 起 着 关键 作用 。 我 们 介绍 了 字符 串 匹配 的 几 种 启发 式 方 
法 ， 并 讨论 怎样 在 大 规模 数据 集 的 情况 下 对 这 些 方法 进行 扩展 。 然 后 ， 我 们 讨论 在 模式 级 
(第 5 章 ) 上 创建 映射 的 问题 。 这 些 技术 的 有 趣 之 处 在 于 ， 它 们 利用 机 器 学 习 方 法 ， 使 系 
统 在 完成 更 多 模式 和 对 象 的 正确 匹配 后 ， 能 够 随 着 时 间 不 断 改进 。 

除了 在 模式 之 间 建 立 映射 的 问题 之 外 ， 在 元 数据 上 还 有 很 多 其 他 的 操作 。 第 6 章 讨论 
通用 的 模式 操作 或 模型 管理 操作 ， 它 们 在 比较 和 构建 模式 映射 中 非常 有 用 。 

下 一 步 ， 我 们 从 数据 级 考虑 映射 识别 和 实体 匹配 技术 (第 7 章 )。 与 模式 映射 一 样 ， 
机 器 学 习 技 术 在 这 里 也 非常 有 用 。 

第 8 章 讨论 数据 集成 系统 中 的 查询 处 理 。 本 章 介绍 数据 集成 系统 中 的 查询 优化 和 查询 
操作 符 。 本 章 所 涉及 的 重要 新 概念 是 自 适应 查询 处 理 ， 它 是 指 查询 处 理 器 在 执行 过 程 中 改 
变 其 计划 的 能 力 。 

第 9 章 讨论 如 何 构建 Web 信息 提取 器 或 包装 器 ， 以 获取 需要 集成 的 信息 。 包 装 器 的 构 
建 是 一 个 极 具 挑 战 性 的 问题 ， 尤 其 是 考虑 到 现实 世界 中 HTML 的 特性 ， 需 要 结合 启发 式 模 
式 匹配 、 机 器 学 习 和 用 户 交 互 等 相关 技术 。 

第 10 章 回 顾 了 数据 仓库 及 其 变种 。 数 据 仓 库 的 主要 优点 是 ， 它 可 以 更 有 效 地 支持 复 
杂 的 查询 。 我 们 还 讨论 了 数据 交换 ， 即 一 种 将 源 数据 库 中 的 数据 转换 到 具有 不 同 模式 的 目 
标 数据 库 中 的 架构 ， 并 回答 目标 数据 库 中 的 查询 。 

本 书 第 二 部 分 着 重 介绍 各 种 数据 表示 方法 ， 包 括 层次 、 类 关系 以 及 注释 。 第 11 章 讨 
论 数据 集成 中 XML 的 作用 。XML 在 数据 集成 中 发 挥 了 重要 作用 ， 因 为 它 提供 了 一 个 共享 
数据 的 语法 。 一 旦 解决 语法 问题 ， 就 能 够 促进 和 人们 以 带 语 义 的 方式 共享 数据 。 本 章 从 XML 
数据 模型 和 查询 语言 (XQuery) 开始 ， 然 后 讨论 在 XML 上 支持 查询 处 理 和 模式 映射 需要 
开发 的 技术 。 

第 12 章 讨 论 数据 集成 系统 中 知识 表示 (KR) 的 作用 。 知 识 表 示 是 人 工 智能 的 一 个 分 
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支 ， 它 构建 了 一 套 表示 数据 的 语言 。 这 些 语 言 能 够 表示 比 数据 库 系统 更 复杂 的 约束 。 这 种 
更 强 的 表达 能 力 ， 使 KR 系统 可 以 对 数据 进行 复杂 的 推理 。 知 识 表示 语言 是 构建 语义 Web 
的 主要 力量 ， 这 些 技术 的 目标 是 使 网 络 上 的 数据 具有 丰富 的 语义 ， 并 且 能 最 终 支持 更 复杂 
的 查询 和 推理 。 我 们 将 讲解 语义 Web 的 基本 形式 和 面临 的 一 些 挑战 。 

第 13 章 讨论 如 何在 数据 集成 系统 中 引 人 不 确定 性 。 当 集成 多 个 自治 的 数据 源 时 ， 数 
据 源 并 不 可 能 都 是 正确 的 或 及 时 更 新 的 。 此 外 ， 模 式 映射 和 查询 也 可 能 是 粗略 近似 的 。 因 
此 ， 数 据 集成 系统 可 以 包含 这 些 不 确定 性 是 很 重要 的 。 第 14 章 介绍 数据 溯源 ， 它 解释 了 
每 一 个 元 组 是 如 何 取 得 的 。 我 们 介绍 溯源 和 概率 值 之 间 的 密切 关系 。 

最 后 ， 第 三 部 分 讨论 一 些 新 的 数据 集成 应 用 以 及 需要 解决 的 挑战 。 第 15 章 讨论 了 
Web 上 的 结构 化 数据 ， 以 及 在 此 之 上 的 数据 集成 。Web 上 大 规模 的 数据 源 以 及 数据 的 多 样 
性 带 来 了 独特 的 挑战 。 

第 16 章 考虑 怎样 结合 关键 字 搜 索 和 机 器 学 习 的 方法 来 “ 按 需 ” 提 供 一 个 更 轻 量 级 的 
集成 : 即使 没有 预先 存在 的 映射 和 中 介 模 式 ， 系 统 也 可 以 找到 连接 数据 源 的 方法 来 寻找 满 
足 查询 条 件 的 数据 ， 用 以 应 答 即席 查询 。 该 系统 甚至 可 能 使 用 机 器 学 习 技 术 来 完善 其 结 
果 。 这 是 一 种 即 付 即 用 (pay-as-you-go) 数据 集成 ， 在 只 有 少量 输入 信息 的 领域 中 很 
有 用 。 

第 17 章 介绍 数据 共享 和 集成 的 对 等 (P2P) RH. Æ P2P 架构 中 ,没有 一 个 单一 的 
中 介 模 式 ， 而 是 一 个 各 协同 单位 的 松散 集合 。 为 了 加 入 P2P 数据 集成 系统 ， 数 据 源 提供 到 
一 些 已 经 存在 于 系统 中 的 对 等 单位 的 语义 映射 。P2P 架构 的 主要 优点 在 于 它 不 再 要 求 各 单 
位 为 了 协同 而 在 中 介 模 式 上 达成 一 致 。 

第 18 章 描述 了 如 何 对 Web 数据 集成 以 及 P2P 数据 共享 中 的 一 些 想法 进行 扩展 ， 来 支 
持 协作 的 数据 交换 。 协 作 系统 的 关键 性 能 包括 进行 注释 和 更 新 以 便 共 享 数据 视图 的 能 力 。 

最 后 ， 我 们 讨论 数据 集成 领域 一 些 开 放 性 的 具有 较 高 影响 力 的 发 展 方向 ， 来 作为 本 书 
的 总 结 。 


参考 文献 注释 


自 20 世纪 80 年 代 初 多 库 系统 Multi- Base System) [366] 出 现 以 来 ， 数 据 集成 就 成 为 
一 大 研究 热点 。 从 那 时 起 ， 这 一 领域 已 经 有 了 相当 多 的 研究 成 果 和 商业 应 用 。 而 关于 中 介 
器 (mediator) [571] 的 文章 进一步 推动 了 这 个 领域 的 研究 热潮 ， 并 最 终 使 该 领域 的 研究 获 
得 了 更 多 的 政府 资助 。 万 维 网 的 出 现 和 互联 网 上 大 量 可 用 的 数据 库 ， 引 发 了 对 大 规模 数据 
集成 [229 ] 的 考虑 。Ozsu 和 Valduriez 对 分 布 式 数据 库 进 行 了 大 量 阐 述 [471] 。 

20 世纪 90 年 代 后 期 以 来 ， 数 据 集成 在 企业 市 场 上 变 成 了 一 个 炙手可热 的 领域 ， 通 常 
称 为 企业 信息 集成 (Enterprise Information Integration, ，EI)[285 ] 。 网 络 上 的 数据 集成 还 有 
一 个 重要 的 市 场 。 许 多 公司 创建 面向 领域 的 接口 来 集成 来 自 多 种 数据 源 的 信息 ， 如 就 业 、 
旅游 和 分 类 广告 领域 。 这 些 网 站 将 来 自 几 百 到 上 千 个 数据 源 的 数据 整合 起 来 。Chaudhuri 
等 人 [123] 对 商务 智能 和 数据 集成 的 研究 现状 和 面临 的 挑战 提供 了 很 好 的 概述 。 

本 章 只 对 关系 数据 模型 和 查询 语言 进行 了 非常 粗略 的 介绍 ， 读 者 可 以 参考 有 关 数 据 库 
教材 [245 489 ] 进 一 步 阅读 。 对 于 查询 语言 和 完整 性 约束 的 理论 研究 ， 请 参阅 [7] 。 有 关 
datalog 的 内 容 ， 请 参阅 [554] 。 
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Principles of Data Integration 


查询 表达 式 及 运 


数据 集成 系统 查询 处 理 的 第 一 步 ， 就 是 选择 与 该 查询 最 相关 的 数据 源 。 而 做 出 抉择 依 
赖 于 查询 处 理 和 查询 间 关 系 推理 的 一 组 方法 。 本 章 将 详细 介绍 这 些 推理 技术 。 这 些 技术 不 
仅 在 数据 集成 中 非常 有 用 ， 而 且 单 独 来 看 它们 也 很 有 价值 ， 它 们 也 已 经 用 于 其 他 场景 ， 如 
查询 优化 和 物理 数据 库 设 计 。 

2. 1 节 首 先 回顾 本 书 使 用 的 数据 库 的 概念 。2. 2 节 介 绍 查询 展开 (query unfolding) 技 
术 ， 它 用 于 查询 重 写 。 将 那些 建立 在 其 他 查询 或 视图 之 上 的 查询 重 写成 仅 对 数据 库 关 系 进 
行 的 查询 。 对 于 查询 优化 来 说 ， 查 询 展 开 可 以 让 查询 优化 找到 更 有 效 的 查询 处 理 计划 ， 因 
为 可 以 有 更 多 的 自由 来 决定 以 何 种 顺序 执行 连接 操作 。 在 数据 集成 背景 下 ， 查 询 展开 能 够 
将 建立 在 中 介 模 式 上 的 查询 ， 重 写成 对 数据 源 的 查询 (参见 3. 2.2 节 )。 

2.3 节 介 绍 了 查询 包含 (query containment) 和 查询 等 价 (query equivalence) 算法 。 
查询 包含 是 一 对 查询 之 间 的 一 种 基本 的 顺序 关系 。 如 果 查 询 Q1 包含 查询 Q2 ， 那 么 无 论 数 
据 库 的 状态 如 何 ，Q1 的 答案 将 永远 是 Q2 答案 的 一 个 超 集 。 如 果 两 个 查询 是 等 价 的 ， 即 使 
从 语法 上 来 看 不 同 ， 那 么 它们 的 答案 总 是 相同 的 。 我 们 将 使 用 查询 包含 和 等 价 的 关系 ,来 
判断 两 个 数据 源 之 间 是 否 元 余 ， 以 及 一 个 数据 源 是 否 可 以 用 来 回答 查询 。 在 查询 优化 的 背 
景 下 ， 我 们 使 用 查询 等 价 来 验证 转换 后 的 查询 是 否 含义 不 变 。 

2.4 节 介 绍 使 用 视图 进行 查询 应 答 的 技术 。 直 观 地 说 ， 使 用 视图 来 回答 一 个 查询 ， 需 
要 考虑 以 下 问题 。 假 设 你 已 将 几 个 查询 的 结果 存储 到 数据 库 的 一 组 视图 中 。 现 在 ， 当 收 到 
一 个 新 的 查询 时 ， 你 想 知 道 仅 使 用 视图 是 否 可 以 回答 该 查询 ， 而 不 用 访问 原始 数据 库 。 在 
查询 优化 的 背景 下 ， 找 到 一 种 使 用 视图 来 回答 查询 的 方法 可 以 大 大 减少 查询 应 答 所 需 的 计 
算 量 。 正 如 我 们 在 3. 2. 3 节 中 描述 的 ， 在 数据 集成 背景 下 ， 我 们 经 常 将 一 组 数据 源 描述 为 
中 介 模 式 上 的 一 组 视图 。 用 户 查询 是 按照 中 介 模 式 中 的 术语 来 构造 的 。 因 此 ， 解 决 使 用 视 
图 的 查询 是 必要 的 ， 以 便 将 用 户 查 询 转 换 为 对 数据 源 的 查询 。 


2.1 数据库 概 念 回顾 
我 们 首先 回顾 数据 库 文献 中 有 关 数 据 建 模 和 查询 的 一 些 基本 概念 和 术语 。 
2.1.1 数据 模型 


数据 集成 系统 需要 处 理 的 数据 往往 来 自 于 很 多 不 同 的 数据 模型 ， 可 以 是 关系 型 的 、 
XML 或 非 结构 化 数据 。 这 里 我 们 首先 复习 关系 数据 模型 的 基础 知识 ， 在 本 书 的 后 面 将 引 
入 其 他 数据 模型 。 特 别 地 ， 第 11 章 讨论 XML 及 其 底层 的 数据 模型 ， 因 为 它 在 许多 数据 集 
成 技术 中 起 到 了 关键 作用 。 

关系 数据 库 是 一 组 关系 ， 也 称 为 表 ( 见 图 2-1)。 数 据 库 模式 包括 每 个 表 的 关系 模式 
和 一 组 完整 性 约束 ， 我 们 稍 后 会 简单 描述 它们 。 
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关系 模式 指定 表 中 的 一 组 属性 以 及 每 个 属性 的 数据 类 型 。 关 系 的 度 (arity) 是 它 具 有 
的 属性 数量 。 例 如 ， 在 图 2-1 中 ， 关 系 Interview MEAS, ， 其 模式 是 : 


candidate: string date: date 
recruiter: string hireDecision: boolean 
grade: float 
Interview 
‘candidate | date "recruiter | hireDecision | grade f 
Alan Jones _| 5/4/2006 | Annette Young ı No | 20 4 
Amanda Lucky 8/8/2008 Bob Young | Yes | 37 | 
EmployeePerformance 
| emplD | name | reviewQuarter grade reviewer | 
2335 | Amanda Lucky 1/2007 3.5 Eric Brown | 
| 5443 Theodore Lanky; 2/2007 3.2 Bob Jones _ 
Employee 
_ emplD | Name hireDate ___ manager 


2335 Amanda Lucky 9/13/2005 Karina Lillberg 
5443 Theodore Lanky 11/26/2004 Kasper Lillholm | 


Interview (面试 ) 表 中 存储 了 面试 者 的 信息 以 及 他 们 的 面试 结果 。 
EmployeePerformance 表 描述 了 每 个 员工 的 季度 评分 


从 某 种 意义 上 说 ， 模 式 体现 了 数据 库 的 设计 者 想 要 如 何 组 织 数 据 ， 包 括 选 择 对 数据 的 
哪些 方面 进行 建 模 以 及 记录 之 间 是 怎样 相互 区 别 的 。 例 如 ，Interview (面试 ) 表 中 不 包括 
面试 地 点 属性 ， 以 及 候选 人 申请 的 岗位 属性 。EmployeePerformance 表 只 提供 了 一 个 简单 的 
分 数 ， 而 事实 上 ， 这 个 分 数 可 能 是 由 一 组 更 加 具体 的 评价 指标 共同 组 成 的 ， 这 些 指 标 就 没 
有 体现 在 该 表 中 。 在 数据 集成 中 ， 我 们 面临 的 挑战 之 一 是 ， 不 同 的 数据 源 往往 用 不 同 的 方 
式 来 组 织 它们 的 数据 ， 而 这 些 差异 就 需要 我 们 来 协调 解决 。 

一 张 关系 表 包 括 有 限 的 行 数 ， 称 为 元 组 (或 记录 )。 一 个 元 组 为 表 中 的 每 个 属性 分 配 
一 个 值 。 如 果 讨 论 的 关系 在 上 下 文中 是 明确 的 ， 那么 我 们 可 以 用 一 组 括号 中 的 值 表示 它 的 
一 个 元 组 ， 例 如 ， 

(Alan Jones, 5/4/2006, Annette Young, No, 2.8) 


否则 ， 可 以 将 它 表 示 为 一 个 闭 原子 (ground atom) : 


Interview(AlanJones, 5/4/2006, AnnetteYoung, No, 2.8) 


在 某 些 情况 下 ， 可 以 用 一 组 属性 名 到 值 的 映射 来 表示 一 个 元 组 ， 例 如 : 
{candidate— Alan Jones, date 一 5/4/2006, recruiter— Annette Young, 
hireDecision— No, grade 一 2.8} 


这 里 要 特别 注意 数据 库 中 的 NULL( 空 ) 值 。 直 观 地 说 ，NULL 意味 着 该 值 可 能 未 知 或 
不 存在 。 例 如 ，age( 年 龄 ) 属性 的 值 在 未 知 的 情况 下 可 以 是 NULL， 而 spouse( 配偶 ) 属性 
的 值 可 能 未 知 或 不 存在 。 对 于 NULL 很 重要 的 一 点 是 ， 要 记 住 ， 如 果 一 个 等 值 判断 语句 中 
包含 NULL， 则 其 返回 值 是 NULL。 事 实 上 ， 即 使 NULL = NULL， 返 回 值 也 是 NULL。 这 其 
实 也 符合 直觉 ， 因 为 如 果 两 个 值 是 未 知 的， 我 们 当然 不 知道 它们 是 否 相 等 。 我 们 可 以 用 
“is NULL” 来 判断 一 个 值 是 否 为 NULL, 

数据 库 的 一 个 状态 ,或 者 数据 库 实例 ， 是 数据 库 内 容 的 一 个 特定 快照 。 数 据 库 有 集合 
语义 和 包 语 义 之 分 。 在 集合 语义 中 ， 数 据 库 状态 为 每 个 关系 分 配 一 个 元 组 集 。 也 就 是 说 ， 


m 
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在 一 个 关系 里 ， 一 个 元 组 只 能 出 现 一 次 。 在 包 语义 中 ,元 组 可 以 在 一 个 关系 中 出 现任 意 多 
次 ， 也 就 是 说 一 个 数据 库 实例 可 以 给 每 个 关系 分 配 多 个 元 组 集 。 除 非 我 们 额外 强调 ， 否 则 
假定 数据 库 是 集合 语义 的 。 目 前 的 商用 关系 型 数据 库 都 支持 两 种 语义 。 
在 本 书 中 ,我 们 使 用 以 下 这 些 符 号 。 
。 用 DD 表示 数据 库 实例 (可 能 带 有 下 标 ) 。 
。 按 字母 表 顺 序 从 头 开始 ， 用 大 写字 母 表示 属性 ， 例 如 ，4、B、C。 用 带 上 画 线 的 
大 写字 母 表示 属性 集 或 属性 列表 ， 如 4。 
。 用 字母 R、$、7 来 表示 关系 ， 然 后 用 带 上 画 线 的 及 、S、7 表示 关系 集 或 关系 列 
表 ， 例 如 ，R。 
用 小 写字 母 表示 元 组 ,例如 ，s、i。 
。 如 果 4 是 一 组 属性 ，: 是 一 个 关系 中 包含 这 些 属 性 的 一 个 元 组 ， 那 么 + 表示 元 组 : 
作用 于 4 中 属性 的 取 值 。 


2. 1.2 完整 性 约束 


完整 性 约束 是 一 种 机 制 ， 用 于 限制 数据 库 的 可 能 状态 。 例 如 ， 在 雇员 数据 库 中 ， 我 
们 不 想 对 同一 个 雇员 记录 两 行 数据 。 完 整 性 约束 指定 employee 表 中 的 雇员 ID 必须 是 唯 
一 的 。 指 定 完 整 性 约束 的 语句 因 情 况 而 异 。 这 里 ， 我 们 着 重 描 述 以 下 最 常见 的 完整 性 约 
束 类 型 : 
。 主键 约束 : 4 是 关系 尺 上 的 一 组 属性 ， 如 果 不 存在 元 组 总 ,5 e R， 使 得 以 = 以 并 
Ht, IBARA ÆR WE. PU, BYE candidate 可 以 是 Interview 表 的 一 个 键 。 
。 函数 依赖 : AM BEKR REREH, WME RATA, LER, Hei = 
A, We? =, WAEA 4 函数 决定 属性 组 B。 
例如 ， 在 EmployeePerformance 表 中 ，EmpID 和 reviewQuarter 函数 决定 grade。 注 
意 ， 主 键 约束 就 是 一 种 函数 依赖 ， 因 为 主键 属性 函数 决定 关系 中 所 有 的 其 他 属性 。 
。 外 键 约束 : 4 是 关系 $ 上 的 一 个 属性 ，7 是 另 一 个 关系 ， 其 主键 是 属性 B。 如 果 对 
于 5 中 的 任意 一 元 组 ， 其 属性 4 的 值 是 vw»， 则 必然 在 7 中 存在 一 个 元 组 ， 其 属性 B 
WEE v, WA ARAR T 中 属性 B 的 外 键 。 例 如 ，EmployeePerformance 表 的 
empID 属性 就 是 Employee 表 的 一 个 外 键 。 


一 般 约 束 表达 式 


元 组 生成 依赖 (Tuple- Cenerating Dependency, TGD) 和 等 值 生成 依赖 ( Equality- Gen- 
erating Dependency, EGD) 为 很 多 种 类 的 完整 性 约束 提供 了 一 般 的 形式 。 正 如 我 们 在 后 面 
的 章节 中 将 会 看 到 的 ，TCD 也 用 于 指定 模式 映射 。 

元 组 生成 依赖 的 形式 如 以 下 公式 所 示 ， 

(VX)s (X) ps Sn (Xn) > AY) (Y) ,ti Y,) 
HRs, +, 5, Alt, e, 4 是 关系 名 。 变 量 X 是 X…U…X, 的 一 个 子 集 ， 变量 Y 是 了 
…U… 了 的 一 个 子 集 。 变 量 了 不 会 出 现在 X…U…X, 中 。 根 据 上 下 文 ， 在 上 述 依 赖 左 侧 
和 右 侧 的 关系 名 可 能 指 的 是 同一 个 模式 中 的 关系 ， 也 可 以 指 的 是 不 同 的 数据 库 。 
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等 值 生成 依赖 是 相似 的 ， 除 了 右 侧 只 包含 等 值 符号 外 : 
CVY¥)#,(%,) 2.) (¥ = (=F) 

这 里 右边 出 现 的 所 有 变量 在 左边 也 出 现 。 我 们 注意 到 ， 在 实践 中 ,量词 (VX MAY) 常 
常 被 省 略 。 在 这 些 情况 下 ， 所 有 出 现在 左边 的 变量 都 被 假设 为 全 称 量词 化 COV), MRE 
现在 右边 的 变量 则 假定 为 存在 量词 化 ( 3 )。 

下 面 我 们 说 明 ， 怎 样 使 用 这 些 形式 来 表示 上 面 提 到 的 3 类 约束 。 

属性 Candidate 是 Interview 表 的 主键 : (下 面 这 个 公式 指定 了 一 个 主键 约束 ， 假 定 
该 表 是 集合 语义 的 ) 
(YC, Dı, R, M, G, D,, R,, H,, G,) 


Interview(C1, D1,R1, H1, G1), Interview(C;,D2,R2,H2,G2) 一 
Dı = D2,R = R2, Hı = H2, G1 = G2 


在 EmployeePerformance 表 中 ， 属 性 emplD 和 reviewQuarter XE grade: 
( VI, Nis R, G,, Re,, Nz; G,, Re, ) 


EmployeePerformance(l, Ni1,R, G1,Re1), EmployeePerformance(l, N2,R, G2, Rez) 
> G1 = G2 


Interview 表 中 的 属性 recruiter 是 EmployeePerformance 表 的 一 个 外 键 : 
(YI, N, R, Gr, Re) EmployeePerformance(N,R,Gr,Re) 一 (3Na, Hd, Mg) Employee(l, Na, Hd, Mg) 


2.1.3 查询 和 应 答 


在 数据 集成 系统 中 ， 查 询 有 多 种 用 途 。 就 像 在 数据 库 系 统 中 一 样 ， 查 询 是 根据 用 户 的 
信息 需求 形成 的 。 在 某 些 情况 下 ， 可 能 要 在 其 他 查询 中 重用 某 个 查询 表达 式 ， 在 这 种 情况 
下 ， 就 可 以 在 数据 库 中 ， 用 这 个 查询 定义 一 个 视图 。 如 果 想 要 数据 库 系 统 帮助 我 们 计算 这 
些 查询 的 答案 ， 并 在 数据 库 修 改 的 同时 维护 这 些 答 案 ， 那 么 我 们 就 把 这 样 的 视图 称 为 物化 
视图 。 

在 数据 集成 系统 中 ， 也 可 以 使 用 查询 来 指定 数据 源 模 式 之 间 的 关系 。 事 实 上 ， 正 如 第 
3 章 讨论 的 ， 查 询 是 指定 语义 映射 的 核心 。 

这 里 区 分 一 下 结构 化 查询 和 非 结构 化 查询 。 结 构 化 查询 是 数据 库 系统 所 支持 的 ， 比 如 
关系 数据 库 中 的 SQL 查询 或 XML 数据 库 中 的 XQuery 查询 。 非 结构 化 查询 就 是 我 们 熟悉 的 
Web 上 的 形式 ， 最 常见 的 一 种 就 是 一 个 查询 关键 字 列 表 。 

本 书 中， 我们 使 用 两 种 不 同 的 方法 在 关系 数据 库 中 表示 查询 。 首 先是 SQL， 这 是 商业 
关系 型 数据 库 系统 中 查询 关系 数据 所 使 用 的 语言 。 不 幸 的 是 ，SQL 在 形式 上 不 够 完美 ， 因 
此 不 便于 比较 正式 的 论述 。 因 此 ， 在 进行 一 些 较为 正式 的 讨论 时 ， 我 们 使 用 一 种 基于 数理 
逻辑 (一 个 非常 简单 的 形式 ) 的 表示 方法 一 一 合 取 查询 。 

SQL 是 一 种 非常 复杂 的 语言 。 对 于 我 们 的 讨论 ， 一 般 只 使 用 其 最 基本 的 特征 : 从 表 中 
选择 指定 的 行 、 从 表 中 选择 指定 的 列 、 使 用 连接 运算 符合 并 多 个 表 中 的 数据 、 两 表 合 并 、 
基本 聚集 。 例 如 ， 下 面 的 查询 就 是 书 中 看 到 的 典型 查询 。 


例 2. 1 

SELECT recruiter, candidate 

FROM Interview, EmployeePerformance 

WHERE recruiter = name AND EmployeePerformance.grade < 2.5 <<< 


[25] 
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例 2.2 

SELECT reviewer, AVG(grade) 

FROM EmployeePerformance 

WHERE reviewQuarter = “ | <<< 

例 2.1 中 查询 的 意思 是 ， 查 找 那 些 在 绩效 评估 中 得 分 低 于 2.5 的 招聘 人 员 以 及 他 们 所 
面试 的 应 聘 者 。 得 到 这 个 查询 结果 后 ， 我 们 可 能 会 对 这 些 应 聘 者 重新 进行 面试 。 例 2. 2 中 
的 查询 想 要 得 到 2007 年 第 一 季度 招聘 人 员 的 绩效 考核 的 平均 分 。 

给 定 一 个 查询 Q 和 一 个 数据 库 D， 我们 用 Q(D) 表示 在 数据 库 D 上 执行 查询 Q 得 到 
的 结果 。 事 实 上 ，@(D) 也 是 一 个 关系 ， 其 模式 由 查询 表达 式 隐 式 定义 。 


2.1.4 合 取 查 询 


下 面 简单 回顾 合 取 查询 的 格式 。 一 个 合 取 查询 通常 具有 如 下 的 格式 : 
Q(X) == R (X1) Ra Xn) ,esc 

在 该 查询 表达 式 中 ，R,(X) ，…，R, (XX,) 表示 子 查询 (或 合 取 项 ) ， 它 们 的 合 取 构 成 查 
询 的 主体 。 每 一 个 R, 都 是 数据 库 的 一 个 关系 ,XX 是 由 变 元 和 常数 构成 的 元 组 。 数 据 库 中 的 同一 
个 关系 可 以 出 现在 多 个 子 查 询 表 达 式 中 ， 除 非 我 们 特意 重新 命名 ， 否 则 都 称 这 个 查询 为 0。 

蕊 中 的 变 元 称 为 独立 变 元 ， 或 头 部 变 元 ， 其 他 变 元 称 为 存在 变 元 。 谓 词 0 表示 该 查询 
结果 所 代表 的 关系 。 它 的 度 为 了 中 元 素 的 个 数 ， 我 们 用 Vars( 0) 表示 在 0 的 头 部 或 主体 
中 出 现 的 所 有 变 元 集 。 

ci 是 比较 原子 ， 格 式 形 如 X60Y， 其 中 XX 和 YY 是 变 元 或 常数 ， 并 且 至 少 有 一 个 是 变 元 。 运 算 
符 9 是 比较 谓词 ,如 =、<、< 、!= 、> 或 >。 除非 特别 说 明 ， 一 般 指 在 稠密 域 S 上 计算 。 

数据 库 实例 D 上 的 连接 查询 @ 的 语义 为 :考虑 任意 一 个 把 Q 中 的 变 元 对 应 到 D 上 常 
数 的 映射 po RITHE y ERX) 上 的 映射 结果 称 为 yw(R,)， 把 y 在 c; 上 的 映射 结果 称 为 
we), 把 小 在 Q(X) 上 的 映射 结果 称 为 wy(Q)， 得 到 闭 原 子 。 当 且 仅 当 

© EMYR), =, Y(R) MED 中, IFA, 

© 对 于 每 个 1<j<m, ple) 都 能 够 满足 ， 

IA y) 就 是 0 在 D 上 的 一 个 解 。 

为 了 阐明 SQL 与 合 取 查 询 的 一 致 性 ， 我 们 用 下 面 这 个 合 取 查询 来 表示 上 面 例 2.1 中 的 
ig (Y,X) :- Interview(X, D, Y, H,F), EmployeePerformance(E, Y,T,W,Z), W < 2.5 

注意 ， 合 取 查询 中 的 连接 (join) 是 用 出 现在 两 个 不 同 的 子 查询 表达 式 中 的 相同 字母 
7 来 表示 。grade 上 的 谓词 是 用 一 个 比较 原子 来 表示 。 

合 取 查询 必须 是 安全 的 ， 也 就 是 说 ， 任 意 一 个 出 现在 头 部 的 变 元 ， 都 必须 出 现在 主体 
的 非 比 较 谓词 部 分 。 否 则 ， 查 询 的 结果 将 会 有 无 穷 多 种 ( 即 ， 在 头 部 出 现 但 主体 部 分 没有 
出 现 的 变 元 ， 可 以 取 任 意 值 ) 。 

我 们 还 可 以 用 析 取 查询 来 表示 。 为 了 表示 析 取 查询 ， 给 出 两 个 或 更 多 拥有 相同 头 部 谓 
词 的 合 取 查询 。 


日 ” 另 一 种 是 在 离散 域 上 进行 计算 , 例如 整数 域 。 这 种 情况 下 ， 我 们 需要 考虑 一 些 隐 含 的 推理 ,例如 计 >3 与 
X<5 的 合 取 指针 =4。 
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例 2.3 下 面 两 个 查询 想 要 得 到 表现 最 差 以 及 最 好 的 招聘 人 员 。 
Q1(E,Y) :- Interview(X, D, Y,H, F), EmployeePerformance(E, Y,T,W,Z), W < 2.5 
Qi (E, Y) :- Interview(X,D, Y,H,F), EmployeePerformance(E, Y,T, W,Z), W > 3.9 <<< 


我 们 还 考虑 带 有 否定 子 查询 表达 式 的 合 取 查询 ， 格 式 如 下 : 
Q(X) +- R(X) R(X) 9S, (%) 27S (Yn) 

对 于 带 有 和 否定 子 查询 的 查询 ， 我 们 把 安全 性 的 概念 扩展 为 : 出 现在 头 部 的 任何 变 元 ， 
必须 同时 出 现在 主体 部 分 的 肯定 子 查询 中 。 为 了 得 到 查询 的 一 个 解 ， 从 0 中 的 变 元 到 数据 
库 中 常量 的 映射 必须 满足 ， E 

W(S,(¥,)) ， 沙 (SCI )) € D 

在 我 们 的 讨论 中 ， 合 取 查询 这 个 术语 指 的 是 没有 比较 谓词 或 否定 子 查询 的 合 取 查询 。 

如 果 查 询 中 允许 出 现 比较 或 否定 原子 ， 我 们 会 特别 说 明 。 


2.1.5 datalog 查询 


一 个 datalog 查询 是 一 套 规 则 ， 其 中 任意 一 个 规则 都 是 一 个 合 取 查询 。 一 个 datalog 查 
询 计算 的 是 一 套 内 涵 的 关系 〈 称 为 IDB 关系 ) ， 而 不 是 一 个 简单 的 查询 结果 ， 其 中 一 个 被 
指定 为 查询 谓词 。 在 datalog 中 ， 我 们 把 数据 库 中 的 关系 称 为 外 延 关 系 (EDB 关系 )。 直 观 地 ， 
外 延 关系 由 一 系列 元 组 给 出 〈 也 称 为 基本 事实 ) ， 而 内 涵 关 系 是 由 一 系列 规则 定义 的 。 因 此 ， 
EDB 关系 只 能 在 规则 的 主体 部 分 出 现 ， 而 IDB 关系 既 可 以 在 头 部 出 现 ， 也 可 以 在 主体 部 分 
出 现 。 


例 2.4 考虑 一 个 只 包含 两 个 关系 的 简单 数据 库 ， 这 两 个 关系 表示 了 图 中 的 边 : 如 果 有 一 
条 边 从 X 到 Y， 那 么 就 存在 一 个 edge(X，Y) 。 下 面 这 个 datalog 查询 计算 图 上 的 路 径 。edge 
就 是 一 个 EDB 关系 ，path 就 是 一 个 IDB 关系 。 


rı path(X,Y) :- edge(X, Y) 
r2 path(X,Y) :- edge(X,Z), path(Z, Y) 


第 一 条 规则 表明 所 有 单条 构成 的 路 径 ， 第 二 条 规则 计算 由 较 短 路 径 组 成 的 路 径 。 这 个 例子 
中 的 查询 谓词 就 是 path。 注 意 ， 用 下 面 这 条 规则 来 替换 上 面 的 第 二 条 规则 ， 得 到 的 结果 是 相 
同 的 。 


rs path(X,Y) :- path(X,Z), path(Z, Y) <<< 


datalog 查询 的 语义 建立 在 合 取 查询 的 基础 上 。 对 于 IDB 谓词 ， 我 们 从 空 表达 式 开 始 扩 
展 。 选 择 程序 中 的 一 个 规则 ， 然 后 把 它 用 在 EDB 和 IDB 关系 当前 的 扩展 上 ， 把 由 此 计算 得 
到 的 规则 头 部 的 元 组 加 入 到 这 个 扩展 的 关系 集 上 。 继 续 把 这 些 程序 中 的 规则 都 计算 出 来 ， 直 
到 IDB 关系 中 已 经 没有 新 的 元 组 产生 。 查 询 的 答案 是 查询 谓词 的 扩展 。 当 这 些 规则 不 包含 否 
定子 查询 时 ， 这 个 过 程 最 终 会 得 到 一 个 确定 的 答案 ， 与 计算 这 些 规则 的 顺序 无 关 。 


例 2.5 在 例 2.4 中 ,假设 我 们 从 这 样 一 个 数据 库 开 始 ， 它 包含 3 条 元 组 edge(1, 
2)、edge(2, 3) 和 edge(3, 4)。 当 运用 7 时 ， 将 得 到 path(1, 2), path(2, 3) 和 
path(3,4)。 第 一 次 运用 7, 时 ， 将 得 到 path(1, 3) 和 path(2, 4)。 第 二 次 运用 7, 时 
将 得 到 path(1，4) 。 因 为 没有 新 元 组 再 产生 ， 所 以 datalog 查询 就 终止 了 。 <<< 


在 数据 集成 中 ， 我 们 对 datalog 查询 感 兴趣 主要 是 因为 有 时 需要 用 它 来 回答 对 一 组 数 
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据 源 的 查询 ( 见 3.3 节 和 3.4 节 )。 熟 悉 Prolog 编程 语言 的 读者 会 发 现 datalog 其 实 是 
Prolog 的 一 个 子 集 。 读 者 还 应 注意 到 ， 并 不 是 所 有 的 SQL 查询 都 可 以 用 datalog 来 表达 。 特 
别 地 ， 在 datalog 中 就 没有 对 分 组 、 聚 集 和 外 连接 的 支持 。SQL 仅 支 持 有 限 的 递归 ， 而 不 支 
持 任意 的 递归 类 型 。 


2.2 查询 展开 


声明 式 查询 语言 的 一 个 很 重要 优点 在 于 可 组 合 性 : 可 以 在 它们 的 主体 部 分 写 出 包含 视 
图 〈 即 ， 其 他 指定 的 查询 ) 的 查询 。 比 如 ,在 SQL 中， 可 以 在 FROM 从 名 中 包含 其 他 视 
图 。 可 组 合 性 很 大 程度 上 简化 了 描述 一 个 复杂 查询 的 任务 ， 因 为 可 以 由 简短 的 查询 片段 适 
当地 拼凑 起 来 。 查 询 展 开 就 是 查询 组 合 的 展开 过 程 : 给 定 一 个 建立 在 其 他 视图 上 的 查询 ， 
查询 展开 就 是 对 它 进行 重 写 ， 从 而 使 该 查询 仅 建立 在 数据 库 的 表 上 。 

查询 展开 的 概念 很 简单 。 我 们 逐个 对 查询 中 的 视图 进行 展开 ， 直 到 查询 中 不 再 有 视 
图 。 下 面 描述 一 个 展开 步 又。 与 本 章 中 的 其 他 算法 一 样 ， 我 们 用 合 取 查 询 来 表示 它们 (IL 
2.1 节 )。 这 里 通常 把 讨论 限制 在 对 合 取 查询 操作 的 算法 上 ， 并 在 某 些 情况 下 描述 一 些 重 
要 的 扩展 。 参 考 文献 注释 提 到 了 一 些 处 理 更 为 复杂 查询 的 算法 。 


展开 一 个 子 查询 

设 0 为 一 个 合 取 查 询 ， 其 格式 如 下 : 

Q(X) :- pi(X1),..., pn(Xn) 
其 中 ，P 本 身 是 由 如 下 的 查询 定义 的 一 个 关系 

p10Y) :- SsS1(Y1),..., Sm(Ym) 

不 失 一 般 性 ,假设 了 是 一 个 由 变 元 组 成 的 元 组 ， 并 且 每 个 变 元 在 元 组 中 至 多 出 现 一 
Ko Q 中 的 其 他 子 查询 也 可 以 由 其 他 查询 或 者 数据 库 中 的 关系 定义 。 

单个 展开 步骤 如 下 。 令 更 是 一 个 将 了 映射 到 XX, 的 变 元 映射 ， 并 将 p, 中 的 存在 变 元 映 
射 到 未 在 其 他 任何 地 方 出 现 过 的 新 变 元 。 为 了 展开 p(X), MOPHR p (X), HÉ 
的 主体 部 分 添加 子 查 询 s,(y(Y)),…, s,(w(Y,))。 

重复 上 述 过 程 直至 0 中 所 有 子 查询 都 指向 数据 库 中 的 关系 。 


例 2.6 考虑 如 下 的 例子 ，Q; EXE Q, FQ, Zk. KA Flight 存储 了 具有 直达 航班 
的 城市 对 ， 关 系 Hub 存储 了 所 有 航线 中 转 城市 的 集合 。 查 询 0, 查找 所 有 可 以 通过 一 个 中 
转 城 市 到 达 的 城市 对 。 查 询 0, 查找 从 同一 个 中 转 城市 出 发 的 同一 条 航线 上 的 城市 对 。 

Qi(X,Y):- Flight(X,Z), Hub(Z), Flight(Z, Y) 

Qo(X,Y) :- Hub(Z), Flight(Z, X), Flight(X, Y) 


Q3(X,Z) :- QiX,Y), Q2(Y,Z) 
Q; 的 展开 是 


Q3(X,2) :- Flight(X, U), Hub(U), Flight(U, Y), Hub(W), Flight(W, Y), Flight(Y, Z) <<< 


关于 查询 展开 有 几 点 需要 注意 。 首 先 ， 展开 的 结果 可 能 会 包含 看 上 去 很 元 余 的 子 查 
询 。 下 一 节 将 介绍 一 系列 通过 使 用 查询 包含 技术 来 消除 元 余 的 算法 。 其 次 ， 查 询 和 视图 可 
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能 都 包含 独立 可 满足 的 比较 谓词 ， 但 展开 之 后 的 查询 可 能 并 不 能 够 被 满足 ， 因 此 可 以 直接 
返回 为 空 的 结果 。 当 然 ， 这 只 是 查询 展开 能 够 显著 优化 查询 计算 的 一 个 极端 例子 。 

还 有 一 个 有 趣 的 地 方 值 得 注意 ， 那 就 是 通过 展开 步骤 的 重复 应 用 ， 子 查询 的 数量 将 会 
旦 指数 级 增长 。 很 容易 产生 这 样 的 例子 : 个 子 查询 定义 一 个 查询 0， 以 至 于 展开 @ 会 产 
生出 2" 个 子 查询 。 

最 后 ,我 们 强调 查询 展开 并 非 一 定 能 提供 一 个 更 高 效 的 查询 处 理 方式 。 事 实 上 ,， 在 
2. 4 节 恰 恰 与 之 相反 一 一 为 了 加 快 查询 处 理 ， 尝 试 重 写 查询 从 而 引用 视图 来 加 速 查询 处 
理 。 展 开 仅仅 使 得 查询 处 理 器 能 够 通过 考虑 更 多 的 连接 操作 顺序 以 及 比较 谓词 所 表达 的 约 
束 条 件 的 全 集 ， 从 而 探索 更 多 的 查询 计划 。 当 然 ， 当 查询 是 组 合 形式 时 (这 也 是 声明 式 查 
询 所 带 来 的 主要 好 处 ) ， 查 询 展开 的 能 力 非常 重要 。 


2.3 查询 包含 与 等 价 
我 们 重新 考虑 例 2. 6 中 的 查询 Q 的 展开 式 : 


Q}(X,Z) :- Flight(X, U), Hub(U), Flight(U, Y), Hub(W), Flight(W, Y), Flight(Y, Z) 

直观 地 ， 该 查询 好 像 包 含 了 一 些 不 必要 的 子 查询 。 例 如 ， 子 查询 Hub(W) Ail Flight(W, 
Y) 似乎 是 宛 余 的 ， 因 为 无 论 什么 时 候 ， 满 足 子 查询 Hub(Z) 和 Flight(Z，Y) 的 元 组 ， 
也 一 定 会 满足 Hub(W) 和 Flight(W，Y)。 因 此 ， 我们 可 以 推断 ， 下 面 的 查询 将 产生 与 
查询 Q, 相同 的 结果 。 

Q4(X,Z) :- Flight(X,U), Hub(U), Flight(U, Y), Flight(Y,Z) 
而 且 ， 如 果 我 们 考虑 下 面 的 查询 ， 它 查询 途经 两 个 枢纽 的 航班 : 

Q5(X,Z) :- Flight(X,U), Hub(U), Flight(U, Y), Hub(Y), Flight(Y,Z) 
那么 ,可 以 推断 出 查询 Q, 的 结果 集 总 是 查询 0; 结果 的 超 集 。 

查询 包含 和 等 价 提 供 了 一 种 形式 化 的 框架 ， 用 来 得 出 我 们 上 面 所 说 的 结论 。 用 这 种 推 
理 方式 ， 可 以 删除 查询 中 的 子 查询 ， 从 而 减少 查询 的 计算 量 。 下 一 章 将 会 看 到 ， 查 询 包含 
和 等 价 提供 了 一 种 用 于 比较 数据 集成 系统 中 不 同 查询 重 构 结果 的 形式 化 框架 。 


2.3.1 形式 化 定义 


我 们 从 形式 化 定义 开始 。Q(D) 表示 在 数据 库 D 上 查询 0 的 结果 。 一 个 查询 的 度 表 
示 其 头 部 的 参数 数目 。 

定义 2.1 (包含 和 等 价 ) RKO FQ, 是 两 个 具有 相同 度 的 查询 。 如 果 对 于 任意 的 
数据 库 D， 都 有 Q1(D) CQ,(D)， 那 么 0 包含 于 Q, 中 ， 用 Qi SO, 表示 。 若 0 EQ E 
@EQO， 那 么 0 和 0, RFU, AO =, 表示 。 

上 述 定义 重要 一 点 是 : 包含 和 等 价 是 查询 的 特性 ， 而 不 是 数据 库 的 当前 状态 。 对 于 任 
意 的 数据 库 状 态 ， 这 种 关系 都 要 成 立 。 事 实 上 ， 查 询 的 包含 和 等 价 可 以 看 做 专门 针对 查询 
表达 式 的 逻辑 推导 问题 。 

在 讨论 中 ， 我 们 不 考虑 数据 关系 中 单个 列 的 数据 类 型 。 然 而 ， 在 实际 中 ， 只 需要 考虑 可 
兼容 的 查询 对 之 间 的 包含 ， 即 ， 它 们 的 头 部 谓词 的 每 一 列 是 彼此 相 容 的 。 在 下 文中 ， 讨 论 了 
对 于 常见 的 查询 类 别 的 包含 〈 以 及 等 价 ) 算法 。 参 考 文献 注释 提 到 了 一 些 已 研究 的 其 他 查询 
类 别 ， 并 且 给 出 我 们 所 介绍 算法 的 出 处 ， 那 里 可 以 找到 相关 算法 更 详细 的 描述 。 
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2.3.2 合 取 查询 的 包含 


我 们 从 最 简单 的 查询 包含 情况 开始 讨论 : 没有 比较 谓词 或 否定 的 合 取 查询 。 在 讨论 
中 ， 经 常会 提 到 变 元 映射 。 从 查询 Q 到 0, 的 变 元 映射 是 将 0, 中 的 变 元 映射 到 0; 中 的 
变 元 或 常量 。 我 们 也 将 变 元 映射 应 用 到 变 元 元 组 和 项 中 。 因 此 , (X,, e 成 ) 表示 
PX), s WX), VOX, X,)) ERP), s W(X,)) 0 

在 没有 比较 谓词 和 否定 的 合 取 查询 情况 中 ， 检 测 包含 的 数量 以 便 找 到 一 个 包含 映射 ， 
定义 如 下 。 

定义 2.2 (包含 映射 ) 40, OC, 是 合 取 查 询 , PZAO, NO 的 变 元 映射 ， 我 们 
iky ZA Q, 到 Q, 的 一 个 包含 映射 ， 如 果 

e U(X) =Y, HP X, YR Q, 和 Q, 的 头 部 变 元 (head vairable) ， 并 且 

。 对 于 0, 查询 主体 中 的 每 一 个 子 查 询 g(X,)， 都 有 W(g(X,)) 是 0 中 的 一 个 子 

查询 。 

下 面 的 定理 说 明 ， 包 含 映射 的 存在 是 包含 的 充 要 条 件 。 

定理 2.1 QO, 和 0, 是 两 个 合 取 查 询 。 那 么 ，Q@, Q0, 当 且 仅 当 存在 一 个 从 O 到 0, 的 
包含 映射 。 

证 明 : 假设 0, MO, 具有 以 下 的 形式 : 

Q(X) := BE) 8, (X) 

Qa CY) = h (Y1) ,hs (Yn) 
对 于 充分 性 证 明 ， 假 设 存在 一 个 从 0, 到 0, HEERA y, H D 是 一 个 任意 的 数据 库 实 
例 。 我 们 需要 证 明 如 果 ie Q,(D), Wreg (D). 

假设 ie 0,(D)。 那 么 存在 一 个 从 Q, 中 的 变 元 到 D 中 的 常量 的 映射 $9， 使 得 

e pb(Y) =i, H, 

。 对 于 任意 的 1<i<m, 有 h($(Y,)) eD. 

现在 考虑 合成 映射 由 * 水 ， 将 0, 中 的 变 元 映射 到 D 中 的 常量 (也 就 是 ， 映 射 先 应 用 消 ， 
再 在 结果 上 应 用 由 ) 。 既 然 少 是 一 个 包含 映射 ， 那 么 下 面 的 条 件 ， 可 以 证 明 fe Q,(D) 
成 立 : o 

© bey(X) =t, 因为 y(X) =Y H (Y) =i. 

。 对 于 任意 的 1<i<n，g,(w(X;)) 是 Q HATE, Al gCo. ylX)) eD. 

因此 te Q, (D). 

对 于 必要 性 证 明 ， 假 设 0, 3 0 ， 那 么 我 们 需要 证 明 有 一 个 从 Q, 到 0, 的 包含 映射 。 

考虑 一 个 特殊 的 数据 库 D。， 我 们 称 其 为 0, 的 规范 化 数据 库 (canonical database), ， 并 
且 它 是 用 下 面 的 方式 构造 的 。De 中 的 常量 是 出 现在 0, 主体 中 的 变 元 或 常量 。D。 中 的 元 
组 对 应 于 Q, 的 子 查 询 结 果 。 也 就 是 说 ， 对 于 任意 的 1<i<m, TH Y, EX h, 中 。 

显然 ,Ye 0,(D。) 只 需 通过 O, 定义。 既然 013 0,,， 了 也 必定 存在 于 0,(D。) H, A 
此 存在 一 个 从 Q, 中 的 变 元 到 0, 中 的 常量 的 映射 少 ， 使 得 

。 消 (X) =Y, H 

。 对 于 任意 的 1<i<n, g.(W(X,)) Deo 

可 以 很 容易 看 出 是 一 个 从 Q, BQ, 的 包含 映射 。 加 
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上 面 证 明 的 重要 一 点 是 规范 化 数据 库 的 概念 。 我 们 可 以 证 明 ， 如果 Q, CDe) 2 
Qi(Dc) ,那么 包含 在 任何 数据 库 中 都 成 立 。 因 此 ， 可 以 用 算法 1 来 检测 包含 。 


算法 1 CQContainment: 合 取 查 询 的 查询 包含 
MA: 合 取 查询 0,; AREH Qo 
输出 : wRQE,=2Q, 则 返回 true, 
AQ, H OD = 8%) ,8 (%) 
A Q, H O) 2 hy (Y) ,eh (Yn) 
NH Qy AR: 











创建 一 个 数据 库 Dec， 其 常量 为 Q, 中 的 变 元 和 常量 
for 每 个 1<i<m do 
添加 一 个 元 组 了 到 关系 hh 中 
end for 
在 De 上 计算 Q, 
return true 4H {224 X eQ, (De) 


例 2.7 我 们 之 前 考虑 过 的 查询 : 
Q5(X,Z) :- Flight(X,U), Hub(U), Flight(U, Y), Hub(W), Flight(W, Y), Flight(Y,Z) 
Qa(X1,21) :- Flight(X;,U 1), Hub(U;), Flight(Uy, Y1), Flight(¥1,Z1) 


下 面 的 包含 映射 证 明 Q; 3 Q, 
{\X > X,,Z2>2,,W- U,, YY, } <<< 


我 们 很 快 将 会 看 到 ， 当 考虑 带 有 比较 谓词 和 否定 的 查询 时 ， 单 个 的 规范 化 数据 库 是 不 
够 的 ， 但 是 可 以 通过 考虑 多 个 规范 化 数据 库 来 补救 这 种 情况 。 


计算 复杂 度 

判断 Q, = Qo 是 否 成 立 是 这 两 个 查询 大 小 的 一 个 NP 完全 问题 。 然 而 ， 在 实际 中 ， 有 
许多 原因 导致 这 不 是 一 个 需要 关心 的 问题 。 首 先 ， 我 们 是 根据 查询 的 大 小 而 不 是 数据 的 大 
小 来 度量 复杂 度 的 ， 并 且 查 询 往往 相对 较 小 (尽管 不 是 总 是 如 此 )。 事 实 上 ， 上 面 的 算法 
是 在 一 个 极 小 的 数据 库 上 评估 查询 。 其 次 ， 在 许多 现实 的 例子 中 ， 对 于 包含 存在 一 些 多 项 
式 时 间 的 算法 。 例 如 ， 如 果 没 有 一 个 数据 库 关 系 在 其 中 一 个 查询 的 主体 中 出 现 超过 两 次 ， 
则 可 以 证 明 包含 关系 的 判断 可 以 在 查询 大 小 的 多 项 式 时 间 内 完成 。 


2.3.3 合 取 查询 的 并 集 


接 下 来 ,我 们 考虑 合 取 查 询 并 集 (union) 的 包含 和 等 价 。 我 们 已 经 知道 ， 并 集 可 以 
表示 为 多 个 在 头 部 具有 相同 关系 的 规则 。 


例 2.8 下 面 的 查询 要 查找 满足 如 下 条 件 的 城市 对 : 1) 有 直达 航班 ; 或 2) 都 有 到 达 
相同 枢纽 城市 的 航班 。 


Q1(X, Y) :- Flight(X,Z), Flight(Z, Y) 
Qi(X, Y) :- Flight(X,Z), Flight(Y,Z), Hub(Z) 
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假设 我 们 想 要 确定 下 面 的 查询 是 否 包含 在 Q 中 : 


Q2(X, Y) :- Flight(X, Z), Flight(Z, Y), Hub(Z) <<< 


下 面 的 定理 证 明了 一 个 非常 重要 的 特性 : 如 果 0, 包含 在 0, 中 , BAO, 中 一 定 存在 
一 个 单独 的 合 取 查 询 独立 地 包含 0,。 换 句 话 说 ，0, 中 的 两 个 合 取 查询 不 能 在 Q 上 “联合 
起 来 ”。 

定理 2.2 Q =Q U- UQ 表示 合 取 查询 的 并 ，0, 是 一 个 合 取 查 询 。 那 么 0 HQ, 当 
且 仅 当 存 在 一 个 1<i<n 使 得 Q1 3 0,。 

证 明 : 充分 性 是 明显 的 。 如 果 0, 中 的 一 个 合 取 查询 包含 0,， 那 么 很 明显 0, 3 0,。 

至 于 必要 性 ， 我 们 再 次 考虑 由 Q, 构建 的 规范 化 数据 库 D。。 假 设 Q, 的 头 是 Y。 既 然 
Q, 20,, IA YZE Q, (De) 中 ， 所 以 存在 1<i<n 使 得 Ye 0i(D。)。 很 容易 得 到 

[34] 0Q130,。 加 

在 例 2.8 中 ， 包 含 成 立 是 因为 0; 包含 在 定义 Q, 的 第 一 个 规则 中 。 

定理 2. 2 的 一 个 重要 推论 是 ， 具 有 并 操作 查询 的 包含 检测 算法 与 之 前 的 算法 有 轻微 的 
差异 。 特 别 是 ， 根 据 Q, 的 主体 构造 的 一 个 规范 化 数据 库 。 如 果 久 在 Q 对 规范 化 数据 库 的 
查询 结果 中 ,那么 01 = 0,。 在 0, 是 合 取 操 作 的 并 的 情况 下 ，0Q1 2 0, 当 且 仅 当 0, 包含 0， 
中 的 每 个 合 取 查询 。 因 此 ， 合 取 查 询 的 复杂 性 转移 到 了 具有 并 操作 的 查询 。 


2.3.4 ” 带 有 比较 谓词 的 合 取 查询 





现在 考虑 带 有 比较 谓词 的 合 取 查询 ， 表 示 形 式 为 : 

Q(X) :- Ri(X1), ..., Rn(Xn), cl Cm 
HF, o 是 比较 原子 (通常 称 为 比较 运算 )， 形 如 X60Y， 其 中 和 YY 是 变 元 或 常量 (但 是 
它们 中 至 少 有 一 个 是 变 元 ) 。 运 算 符 9 是 比较 谓词 ， 如 =、 关 、< 、< 、> 或 =。 我 们 假 
定 比 较 谓词 都 是 明显 的 含义 ， 除 非 有 特殊 说 明 ， 否 则 在 一 个 稠密 域 上 计算 。 

合 取 查询 允许 比较 原子 的 合 取 运算 。 在 一 些 推 论 中 ， 也 将 使 用 包含 析 取 的 布尔 公式 。 我 
们 使 用 逻辑 推导 的 标准 表示 法 。 特 别 是 ， 如 果 C 是 比较 原子 上 的 一 个 布尔 表达 式 ，c 是 一 个 
比较 原子 ， 那 么 CF c 表示 任意 满足 C 的 变 元 代 换 也 满足 c。 例 如 ，1X<5，7<51FX<5， 
但 是 1X<5, Y<S}AY<4, FIT CR c 是否 成 立 可 以 在 C 和 大 小 的 平方 时 间 内 完成 。 

下 面 的 定义 将 包含 映射 的 概念 扩展 到 了 带 有 比较 谓词 的 查询 上 。 

定义 2.3 ( 带 有 比较 谓词 的 包含 映射 ) Q, F Q, 是 有 比较 谓词 的 合 取 查询 。C; (A 
应 地 C,) Z0 (相应 地 0,) 中 比较 谓词 的 合 取 式 。 峭 是 从 01 到 Q, 的 变 元 映射 。 我 们 说 
小 是 一 个 从 Q, 到 Q, 的 包含 映射 ， 如 果 

© W(X) = 了 ， 其 中 站 和 了 分 别 是 0 和 0, 的 头 部 变 元 。 

。 对 于 0, 主体 中 任意 不 具有 比较 谓词 的 子 查询 g,(X,) ，g,(WW(X,)) 是 0, 中 的 子 查 

询 ， 并 且 
e C,FY(C,). 
将 定理 2. 1 扩展 到 带 有 比较 谓词 的 查询 ， 其 充分 性 很 容易 证 明 。 即 ， 如 果 存 在 一 个 从 
[35] Q, 到 Q, 的 包含 映射 ， 那 么 0,3 0,。 然 后 ， 如 下 面 的 例子 所 示 ， 反 之 则 不 一 定 成 立 。 
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例 2.9 

Q1(%, Y) = R(X, Y), S(U, V), U < V 

Qo(X, Y) :- R(X, Y), S(U, V), S(V, U) 

显然 0, 20, 成立， 因为 在 U<V 和 U>V 两 种 选择 中 ，0Q, 中 的 子 查询 S 将 被 满足 。 
然而 ， 不 存在 从 Q, 到 0, 的 带 有 比较 谓词 的 包含 映射 。 <<< 


事实 上 ， 在 例 2.9 中 , WH Q 20, 的 推导 是 为 带 有 比较 谓词 合 取 查 询 设计 一 个 包含 
算法 的 关键 。 在 此 例 中 ， 假 设 将 0, 重 写 为 下 面 的 并 集 的 形式 。 


Q2(X, Y) :- R(X, Y), S(U, V), S(V, U), U < V 
Q2(X,Y) :- R(X, Y), S(U, V), S(V,U), U > V 


现在 ， 通 过 包含 映射 可 以 很 容易 地 证 明 ，@, 包含 0, 中 两 个 合 取 查询 的 每 一 个 。 下 面 
的 讨论 将 使 得 这 个 推论 更 加 精确 。 

首先 介绍 全 排序 ， 它 是 对 一 组 比较 原子 的 合 取 的 优化 。 尤 其 是 ， 比 较 谓 词 的 合 取 C, 
可 能 仍然 只 指定 C 中 变 元 排序 的 部 分 信息 。 例 如 ，|X>=>5，7Y<8} 不 涉及 X<Y, XY 或 
X=Y, C 产生 的 全 排序 是 与 C 一 致 的 比较 集合 ， 并 且 完 整地 表示 了 变 元 对 之 间 的 顺序 关 
系 。 当 然 ， 可 以 有 多 个 全 排序 与 给 定 的 合 取 C 一 致 。 

定义 2. 4( 全 排序 和 查询 优化 ) 令 @ 是 一 个 合 取 查询 ， 包 含 变 元 在 = 六 ，…， 成 和 党 


Aza, ©, ano CAO 中 比较 原子 的 合 取 。 变 元 处 的 全 排序 Cr 是 可 满足 的 比较 谓词 的 合 
RL, 使 得 Cr 厂 C， 并 且 对 于 任意 一 对 di、d，,， 其 中 di、d, eXUA， 都 有 下 述 条 件 之 一 成 立 : 
e C,F d, <d,, 
e C, Ed, >d, 
® CrFd =d, 


给 定 一 个 合 取 查 询 
Q(X) :- Ri(X1), ..., Rn(Xn), C 

Ac, +, Cc! 是 0 中 变 元 和 常量 的 全 排序 ， 那 么 
Q!(X) :- Ri(X), ..., Rn(Xn), cl 


Q!X) :- R1(X1), ..., Rn(Xn), c! 

是 0 的 全 查询 优化 。 其 中 Q=Q'U…UQ'。 

为 了 确定 QO, ERBE 0,， 我 们 需要 为 0 到 0, 的 每 个 全 查询 优化 找到 一 个 包含 映 
射 。 下 面 的 定理 形式 化 地 陈述 了 该 思想 。 

定理 2.3 令 0 和 0, 是 两 个 包含 比较 谓词 的 合 取 查 询 。0Q!，…，0! 是 0, 的 全 查询 
Rilo Q 三 0, 成立， 当 且 仅 当 对 于 任意 的 1<i<1， 存 在 一 个 从 0, 到 Qi 的 包含 映射 。 

证 明 : 充分 性 非常 明显 ， 因 为 0=0' U…U0Q' 并且 包 含 映射 是 包含 的 一 个 充分 条 件 ， 
即使 带 有 比较 谓词 。 

至 于 必要 性 ， 考 虑 ! 个 规范 化 的 数据 库 C,，…，Cb， 其 每 一 个 的 构造 方法 如 前 所 述 ， 
除了 Cb 中 的 常量 是 满足 Q, 中 比较 谓词 的 有 理 数 外 。 仿 i, 是 0; 从 05 中 产生 的 结果 。 因 为 
Q,20,, MItt eQ (Cp) 与 定理 2.1 的 证 明 相似 的 论点 证 明 存在 一 个 从 Q, 到 0; 的 包含 
映射 。 B 

由 定理 2.3 可 以 看 出 该 算法 存在 一 个 实际 问题 ，0, 的 全 查询 优化 数量 会 非常 大 。 事 
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实 上 ， 优 化 的 数量 会 随 着 0, 的 大 小 呈 指 数 级 增长 。 还 记得 ， 优 化 的 数量 对 应 于 查询 中 出 
现 的 变 元 和 常量 的 所 有 不 同 序列 。 因 此 ， 判 断 带 有 比较 谓词 的 合 取 查询 之 间 的 包含 关系 是 
一 个 Y? 完全 问题 ， 是 一 类 可 以 用 形 如 YX3YP(X，Y) 公式 描述 的 问题 ， 其 中 P 是 一 个 
可 以 在 多 项 式 时 间 内 判定 的 条 件 。 这 里 ,站 包含 优化 的 集合 ,，Y 包含 变 元 映射 的 集合 ， 而 
P 证 明 变 元 映射 是 一 个 包含 映射 。 

幸运 的 是 ， 在 实践 中 ,我 们 不 需要 考虑 Q 所 有 可 能 的 优化 。 算 法 2，CQIPContain- 
ment， 描 述 的 是 一 个 针对 带 有 比较 谓词 查询 包含 的 更 加 有 效 的 算法 。 

将 CQIPContainment 算法 运用 到 我 们 的 例子 中 ， 可 以 在 包含 元 组 R(X, Y), S(U, V), 
S(V, U) 的 数据 库 De 上 计算 查询 Qo Q (De) 可 能 包含 下 面 的 一 组 元 组 对 : ((X, Y), 
U<V), ((X, Y), U>V), Alb C=U<SVVUSV=Trme, ANC, =True， 所 以 可 以 得 到 
CLEC, Alb Qi Q30 


2.3.5 带 有 否定 的 合 取 查询 
接 下 来 ， 讨 论 具有 如 下 形式 带 有 和 否定 的 查询 


37 Q(X) :- Ri(X1), «++ Rn(Xn), —S1(Y1), ..., — Sm(Ym) 


算法 2 CQIPContainment: 带 有 比较 谓词 的 合 取 查询 之 间 查 询 包含 关系 的 判断 
MWA: 合 取 查询 O, ， 合 取 查 询 Qo 
输出 : 如 果 Q, IQ, 则 返回 true。 
AQ, 形 如 : Q(X) (X) pga (Xn) 
A Q, 形 如 : QUY) i- h (YF),…,h,(Y,) 
/0 BR: 
创建 一 个 数据 库 De ， 其 中 常量 为 O 中 的 变 元 和 常量 


for 每 个 1<i<m do 
将 元 组 了 添加 到 关系 有 中 
end for 
E De HIR OX) i- g (XX),…,g,(X,) 
Q'(De) 中 的 所 有 元 组 都 可 以 表示 为 (1，9(Ci)) 对 ,其 中 gp 是 从 Q1 到 De 满足 0 所 有 子 查询 的 变 
ERA 
C= VeVe, KE (Y, a), =, (Y, cs) 是 以 了 作为 第 一 字段 Q!(Dc) 中 的 所 有 元 组 
return Q, 20, 当 且 仅 当 1) 有 至 少 一 个 形 如 (Y，c) si(D.) 的 元 组 并 且 2) CLEC 





我 们 要 求 查询 是 安全 的 ， 即 在 查询 头 部 出 现 的 任意 变 元 也 要 出 现在 肯定 子 查 询 中。 为 
了 简化 描述 ， 这 里 仅 考 虑 不 带 比 较 谓 词 的 查询 。 

对 带 有 否定 查询 的 包含 映射 自然 扩展 ， 确 保 肯 定 查 询 映射 到 肯定 子 查询 ， 否 定子 查询 
映射 到 否定 子 查询 。 下 面 的 定理 证 明了 包含 映射 是 包含 的 充分 条 件 。 这 里 将 证 明 留 给 读 
者 ， 因 为 它 是 定理 2. 1 证 明 的 一 个 扩展 。 

定理 2.4 40, 和 0, 是 带 有 否定 子 查询 的 安全 合 取 查询 。 若 存在 一 个 从 Q 到 Q, 的 
包含 映射 由 ， 使 得 小 将 0 的 肯定 子 查询 映射 到 QO, 的 肯定 子 查询 ， 并 将 O 的 否定 子 查询 
映射 到 QO, 的 否定 子 查询 ， 那 么 Q1 3 0,。 
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这 里 ， 包 含 映射 仍然 不 是 包含 的 必要 条 件 。 实 际 上 很 难 找到 一 个 例子 ， 使 得 包含 成 立 
但 不 存在 包含 映射 但 下 面 的 例子 说 明了 这 种 情况 。 


例 2.10 考虑 查询 0, 和 0 。 注 意 ， 它 们 没有 头 部 变 元 ， 因 此 它们 是 布尔 查询 一 一 返 
回 结果 为 true 或 false, 


Q10 :- a(A, B), a(C, D), — a(B, C) 
Q20) :- a(X, Y), a(Y,Z), > a(X,Z) 


很 容易 证 明 0, 20,; 然而 ,不 存在 从 Q FQ, 的 包含 映射 。 <<< 


在 前 面 的 例子 中 ,证明 包含 的 关键 是 构建 一 个 非常 特殊 的 规范 化 数据 库 (或 数据 库 的 
集合 ) 。 如 果 对 于 所 有 规范 化 数据 库 ， 包 含 都 成 立 ， 则 可 以 推出 包含 对 于 所 有 数据 库 都 成 
立 。 在 带 有 和 否定 子 查询 的 查询 情况 下 ， 证 明 包含 关系 的 关键 只 需 考 虑 一 定 大 小 的 数据 库 。 

定理 2.5 AQ 和 0@: 是 两 个 带 有 安全 否定 子 查询 的 合 取 查 询 ， 并 且 假 设 它们 的 变 元 
集 互 不 相交 。 令 已 是 @, 中 所 有 变 元 和 常量 的 数量 。 则 Q 0 成 立 ， 当 且 仅 当 对 于 所 有 的 
至 多 包含 妃 个 变 元 的 数据 库 刀 ,都 有 Q,(D)2Q.(D) 成 立 。 

证 明 : 令 Q, 和 @ 具有 如 下 的 形式 〈 我 们 省 略 了 子 查 询 中 的 变 元 ) : 


Q(X) :- Prr- Pay TL 
Q2(Y) :- G1,..., Pm 一 S1 一 SK 


必要 性 很 明显 ， 所 以 我 们 只 考虑 充分 性 。 假 设 @, 3 Q,。 仅 需要 证 明 存 在 一 个 最 多 包 
含 B 个 常量 的 数据 库 反 例 。 

因为 01 己 Q,， 所 以 必然 存在 一 个 数据 库 D、 一 个 元 组 t 以 及 从 Q, 的 变 元 到 D 中 常量 
的 一 个 映射 ,使 得 1) $(Y) =1; 2) $(g) eD, 1<i<m; 3) 6(s,), =, (s) €D, 
l1<i<k; 4) t¢Q,(D). 

考虑 数据 库 D'， 它 是 由 数据 库 D 中 只 包含 p 的 范围 内 的 常量 或 0, 中 的 常量 的 元 组 
组 成 。 

首先 , 证 明 te Q,(D')。 这 可 以 从 D' 的 构造 中 推导 出 来 。4 的 范围 不 受 影响 ， 因 为 D' 
是 DD 的 一 个 子 集 ， 所 以 生成 1 的 肯定 原子 在 六 中 ， 并 且 和 否定 原子 肯定 成 立 。 因 此 ， 上 面 的 
2) 和 3) 依然 成 立 。 事 实 上 ， 相 同 的 方法 可 以 证 明 对 于 任意 数据 库 D", te Q,(D") RZ, 
使 得 D'CD"CD, 

接 下 来 ,证 明 可 以 构造 一 个 数据 库 D"， 其 中 D'CD'CD, 并 且 D" 是 一 个 反例 。 而 且 
在 D" 中 的 常量 数目 至 多 为 8。 注意 D' 中 的 常量 数目 也 至 多 为 B。 

我 们 来 考虑 两 种 情况 。 在 第 一 种 情况 中 ， 不 存在 从 Q 的 变 元 到 D 的 映射 yw， 使 得 
u(P;) eD',1<i<n。 在 该 情况 下 ， 显 然 不 存在 这 样 的 从 Q, 到 D' 的 映射 ， 并且 因为 1g 
Q1(D') 所 以 D' 是 一 个 反例 。 

第 二 种 情况 ， 可 能 存在 从 Q 的 变 元 到 D' 的 映射 ,满足 它 的 肯定 子 查询 。 首 先 将 D" 初 
始 化 为 D， 然 后 采用 如 下 方法 构造 D”。 

S p ÆA Q 的 变 元 到 D' 的 映射 ,满足 y(p;) eD'，1<j<n。 则 一 定 存 在 一 个 j,，1 < 
isn, 使 得 y(r;) eD, FW, t 应 该 在 0,(D) HARP, RAK yr) 添加 到 Dp, A 
此 y 不 再 是 一 个 可 以 使 1 存在 于 QD") 的 变 元 映射 。 注 意 ,将 yy(r;) 添加 到 D' 中 不 会 改 
变 D" 中 常量 的 数量 ， 因 为 所 有 出 现在 7 的 变 元 一 定 会 出 现在 某 个 子 查询 p, Ho 

因为 通过 这 种 方式 添加 到 D" 中 的 元 组 数量 是 有 限 的 ， 所 以 最 终 将 不 能 再 添加 任何 
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元 组 。 数 据 库 D" 最 多 含 B 个 常量 ， 并 且 tg 01(D")。 因 此 ，D" 是 一 个 反例 ， 从 而 证 明了 
该 定理 。 a 
定理 2. 5 说 明 ， 它 只 需要 判断 在 所 有 至 多 包含 B 个 常量 的 数据 库 中 (在 同 构 意义 下 ) 
包含 成 立即 可 。 因 为 这 样 的 数据 库 数量 有 限 ， 所 以 查询 包含 是 可 判断 的 。 接 下 来 我 们 将 介 
绍 一 个 策略 ， 它 比 简单 枚 举 出 所 有 可 能 满足 条 件 的 数据 库 更 有 效 。 
C 表示 在 Q, 中 出 现 的 变 元 。 我 们 构造 了 一 个 常量 为 C 的 规范 化 数据 库 集合 。 直 观 地 
说 ， 每 个 规范 化 数据 库 对 应 于 一 组 应 用 于 C 中 常量 的 等 值 约束 (与 2.3.4 节 中 的 优化 思想 
相同 , 但 是 只 考虑 “ =” 谓词 ) 。 
形式 化 地 在 每 个 规范 化 数据 库 中 ， 应 用 C 中 元 素 的 一 个 划分 。C 的 一 个 划分 将 C 中 的 
常量 映射 到 一 组 等 价 类 ， 并 且 该 映射 是 一 个 同 态 映射 ,其 中 C 的 每 个 常量 都 唯一 对 应 一 个 
SRA. k 表示 C 的 所 有 可 能 划分 的 数量 ，gi; 是 与 第 大 个 划分 相关 的 同 态 。 构 造 数据 库 
D,，…，D， 其 中 数据 库 D, 包含 元 组 plq), s Dilan) o HEA D, 构建 一 个 如 下 的 
数据 库 集合 D,。 
。 MRD, 不 满足 Q KWEK, MED, 设 为 空 集 。 注 意 ， 可 能 因为 D, 不 满足 Q 的 否 
定子 查询 ， 而 不 满足 0, 的 主体 。 
。 WAR D, 满足 Q 的 主体 ， 那么 可 以 通过 如 下 方法 由 D; 构造 一 个 规范 化 数据 库 集 
合 D,: 
o 将 所 有 仅 包含 D; 中 常量 的 元 组 子 集 添加 到 D, 中 ,但 不 添加 $51)，…，g; (si)。 
AA Q, 20, 成 立 ， 当 上 且 仅 当 对 任意 i(1<i<k) 和 任意 De D;, #A p(X) e 0,(D)。 


例 2. 11 使 用 例 2.10 中 查询 来 说 明 该 包含 算法 。0, 包含 4 个 常量 A、B、C、D。 

首先 考虑 第 一 个 划分 ， 其 中 Q, 的 所 有 变 元 都 是 等 价 的 ， 生 成 数据 库 D = |a(A,，A)|}。 
D, 满足 Q, 的 主体 ， 因 为 它 不 满足 否定 子 查询 。 因 此 ，7D, 是 一 个 空 集 ， 并 且 包 含 显然 成 立 。 

现在 考虑 男 一 种 极端 情况 ， 在 这 个 划分 中 每 个 变 元 都 独自 形成 一 个 等 价 类 ， 因 此 生成 
数据 库 D, = [a(A，B), a(C, D)}. AAD, 满足 0,， 所 以 D, 包含 任意 通过 如 下 方式 构 
造 的 数据 库 : 向 D, 中 添加 包含 常量 A、B、C、D 但 不 满足 a(B，C) 的 元 组 。 通 过 逐个 
分 析 的 方法 可 以 证 明 D, 中 所 有 的 数据 库 都 满足 Q o 

用 同样 的 方式 ， 读 者 可 以 证 明 ， 当 @ 中 变 元 使 用 其 他 划分 时 包含 仍旧 成 立 。 <<< 


计算 复杂 度 

带 有 否定 子 查 询 的 合 取 查询 其 包含 检测 的 时 间 复 杂 度 为 完全 ， 这 类 问题 可 以 用 
VXJYP(X, Y) 形式 的 公式 表示 ， 其 中 P 是 一 个 可 以 在 多 项 式 时 间 内 判断 的 条 件 。 这 里 
X 的 取 值 范围 是 规范 化 数据 库 集合 DP e, De Y 取 值 范围 是 变 元 映射 集合 ， 且 P 是 用 于 
判断 变 元 映射 否 为 包含 映射 的 函数 。 


2.3.6 包 语 义 、 分 组 和 聚集 


SQL 查询 默认 对 元 组 的 包 (多 重 集 合 ) 进行 操作 而 不 是 元 组 的 集合 。 在 默认 情况 下 ， 
除非 使 用 了 关键 词 DISTINCT, WN SQL 查询 的 结果 也 是 包 。 包 语义 的 主要 不 同 是 元 组 可 
以 在 关系 (输入 或 者 查询 结果 ) 中 重复 出 现 。 我 们 把 重复 出 现 的 次 数 称 为 元 组 的 重 数 。 例 
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如 ， 对 图 2-2 中 的 表 执 行 如 下 查询 : 


Qi(% Y) :- Flight(X,Z,W), Flight(Z,Y,W1) Flight 

在 集合 语义 下 ，0, 的 结果 将 包含 单个 元 组 (San .9rigin | Destination ，DepartureTime | 

ris eae 2 Se San Francisco: Seattle © 8AM i 
Francisco, Anchorage), Æ fi X F, 元 组 (San “San Francisco Seattle 0AM 
Francisco, Anchorage) 在 结果 中 的 重 数 为 2， 因 为 有 Seattle | Anchorage 1PM 
两 对 航班 连接 San Francisco 和 Anchorage。 图 2-2 一 个 简单 的 航班 表 ， 用 于 说 明 集合 

对 带 有 包 语义 查询 ， 其 查询 包含 和 等 价 方面 的 语义 和 包 语义 的 区 别 


研究 工作 已 有 很 多 。 带 有 分 组 和 聚集 查询 的 包含 和 等 价 很 大 程度 上 依赖 于 我 们 对 包 包 含 的 
理解 。 本 节 给 出 这 个 问题 的 概述 以 及 这 方面 的 一 些 已 有 成 果 。 

为 了 讨论 带 有 聚集 查询 的 包含 ， 首 先 需要 稍微 调整 一 下 包含 的 定义 ， 从 而 可 以 解释 不 同 
的 语义 。 特 别 是 ， 如 果 对 于 任意 数据 库 D 以 及 任意 元 组 1, 7 在 0,(D) 中 的 重 数 大 于 等 于 1 在 “[a] 
QCD) 中 的 重 数 ， 则 称 在 包 语义 下 Q, 2 0,。 如 前 所 述 ， WE Q 0, EEQ, WE, =Q 


例 2. 12 下 面 通过 一 个 简单 的 例子 说 明 ， 在 集合 语义 下 等 价 并 不 意味 着 在 包 语 义 下 
等 价 ， 考 虑 以 下 两 个 查询 : 


Q1(X) :- P(X) 
Q2(X) :- P(X), P(X) 


假设 P 的 一 个 实例 包含 nn 个 常数 4d。 那么 0, 的 查询 结果 包含 ww Sd, OQ, NEE nid, 
因此 虽然 0, AQ, 在 集合 语义 下 等 价 ， 但 是 它们 在 包 语 义 下 不 等 价 。 <<< 


对 于 没有 比较 谓词 和 和 否定 的 合 取 查 询 ， 查 询 包 含 实际 上 已 经 知道 是 不 可 判断 的 。 此 
外 ， 当 人 允许 比较 谓词 或 者 并 操作 时 ， 查 询 包 含 也 是 不 可 判断 的 。 对 于 查询 等 价 更 是 如 此 。 
事实 上 ， 下 面 的 定理 描述 了 ， 对 于 两 个 合 取 查 询 要 想 满 足 包 等 价 ， 则 需要 它们 互 为 同 构 。 
参考 文献 注释 中 提 及 了 本 节 中 相关 定理 的 证 明 。 

定理 2.6 40,0, RARE, MA, Q F 是 包 等 价 的 ， 当 且 仅 当 存在 一 个 
M Q: 到 0, 为 双 射 (一 对 一 ) 的 包含 映射 ( 即 同 构 )。 


带 有 分 组 和 聚集 的 查询 


对 带 有 分 组 和 聚集 的 查询 ， 其 等 价 条 件 高 度 依赖 于 查询 中 的 特定 聚集 函数 。 一 些 聚 集 
函数 对 重 数 敏感 (如 ，Average( 平 均 ) 和 Count( 计 数 ))， 而 有 些 则 不 是 (如 ，Max( 最大) 
和 Min( 最小) ) 。 下 面 是 两 个 已 知 精确 条 件 的 查询 等 价 的 例子 。 


计数 查询 
这 类 查询 有 如 下 形式 : 
Q(X, count(Y)) :- Ri(X1),..., Rn (Xn) 
该 查询 计算 查询 主体 中 子 查 询 (body subgoals) 指定 的 表 ， 根据 X 中 的 变 元 对 结果 进 
行 分 组 ， 并 对 每 个 分 组 输出 了 的 不 同 值 的 数量 。 
下 面 的 定理 说 明 计数 聚集 查询 是 重 数 敏感 的 。 使 用 前 面 介 绍 的 全 排序 概念 ， 该 定理 可 
以 扩展 到 带 有 比较 谓词 的 查询 。 
定理 2.7 邻 0, 和 0, 是 两 个 计数 查询 。 等 价 式 =G 成 立 ， 当 且 仅 当 存 在 一 个 从 [到 ] 
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Q 中 的 变 元 到 0, 中 变 元 的 映射 由 ， 它 是 0| QO, 主体 之 间 的 同 构 ， 以 及 Q FQ, 头 部 之 
间 的 同 构 。 


最 大 聚集 查询 
可 以 证 明 ， 最 大 聚集 查询 是 非 重 数 敏感 的 。 最 大 聚集 查询 的 形式 如 下 : 
QCX,max(Y)) :- Ri (X1), ..., Rn(Xn) 


该 查询 计算 查询 主体 中 子 查询 指定 的 表 ， 根 据 忒 中 的 变 元 对 结果 进行 分 组 ， 并 且 输 出 
每 个 分 组 中 变 元 了 的 最 大 值 。 这 里 定义 最 大 聚集 查询 的 核 (core) 为 具有 头 部 中 变 元 了 却 
没有 聚集 函数 的 查询 ， 即 

Q(%,Y) :- Ri(X1), ..., Rn(Xn) 

下 面 的 定理 描述 了 最 大 聚集 查询 的 属性 。 

定理 2.8 令 0, 和 0Q, 是 两 个 没有 比较 谓词 的 最 大 聚集 查询 。 等 价 式 O =O, 成 立 当 

且 仅 当 Q, 的 核 与 Q, 的 核 等 价 。 


例 2.13 下 面 的 例子 说 明定 理 2. 8 不 适用 于 包含 比较 谓词 的 最 大 聚集 查询 。 
Qi(max(Y)) :- p(Y), P(Z1), p(Z2), Zi < Z2 
Qo(max(Y)) :- p(Y), PZ), Z < Y 


如 果 P 包含 至 少 两 个 不 同 的 常量 ， 则 这 两 个 查询 会 返回 结果 。 然 而 ， 当 @, 考虑 P 中 
所 有 的 元 组 ， 而 Q, 考虑 除了 变 元 为 最 小 值 的 元 组 以 外 所 有 的 元 组 。 因 此 ， 最 大 值 总 是 相 
同 的 (所 以 Q@,=@.) ， 但 核 不 等 价 。 幸 运 的 是 ， 存 在 一 个 更 精确 的 条 件 来 检测 带 有 比较 谓 
词 的 最 大 聚集 查询 的 包含 〈 参 考 文献 注释 中 包含 更 多 细节 ) 。 <<< 


2.4 基于 视图 计算 查询 


在 前 面 的 章节 中 ， 我们 讨论 了 查询 包含 ， 它 是 查询 对 间 的 基本 关系 。 查 询 包含 的 重要 
用 途 之 一 就 是 ， 当 我 们 检测 到 查询 0, 包含 于 查询 Q, 中 时 ， 通 常 可 以 从 Q, 的 结果 中 计算 
Q 的 结果 。 本 节 研 究 更 加 一 般 的 问题 ， 即 可 以 从 一 组 视图 中 获得 查询 0 的 结果 。 下 面 的 
例子 解释 了 这 一 做 法 。 


例 2. 14 以 我 们 熟悉 的 具有 以 下 关系 的 电影 数据 库 为 例 。 在 这 些 关 系 中 ， 第 一 个 参 
数 是 数据 库 中 电影 的 一 个 数值 型 标识 符 ID, 


Movie(ID, title, year, genre) 
Director(ID, director) 
Actor(ID, actor) 


假设 一 个 用 户 提交 了 如 下 查询 ， 要 查找 1950 年 后 制作 的 导演 兼 演员 的 喜剧 电影 。 


Q(T,Y,D):- Movie(l, T, Y.G), Y > 1950, G=“comedy”, Director(I,D), Actor(l, D) 


另外 ， 假 设 已 对 数据 库 访 问 如 下 视图 : 

Vi(T,Y,D):- Moviel(l,T,Y,G),Y > 1940, G=“comedy”, Director(1,D), Actor(l, D) 

因为 V 中 对 制作 年 份 的 挑选 限制 比 O 中 少 ， 所 以 我 们 可 以 推断 Vi 0Q。 因 为 年 份 属 
性 year 在 Vi 的 头 部 ， 所 以 通过 添加 另 一 个 选择 可 以 很 容易 地 用 OV, 来 回答 查询 Q: 


Q'(T,Y,D):- Vi(T,Y,D),Y > 1950 


用 Vi 来 应 答 Q 可 能 比 直接 从 数据 库 中 回答 Q 更 加 有 效 ， 因 为 不 需要 执行 0 中 的 连接 
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操作 。 然 而 ， 假 设 没有 Vi， 而 仅 有 以 下 视图 : 
V2(l,T,Y) :- Movie(|,T, ¥,G), Y > 1950, G=“comedy” 
V3(1,D) :- Director(l, D), Actor(l, D) 


V, 和 V 都 不 包含 @， 因 此 上 面 的 推理 不 可 用 。 然 而 ， 仍 然 可 以 像 下 面 这 样 用 到 和 V 
应 答 Q， 在 很 多 情况 下 可 以 生成 一 个 更 有 效 的 评估 计划 : 


QTYD):- V2(l,T, Y), V3(l, D) <<< 


上 面 的 例子 说 明了 确定 是 否 可 以 通过 一 些 预 处 理 的 视图 来 回答 查询 ， 是 比 查 询 包 含 更 一 
般 化 的 问题 。 因 为 需要 考虑 视图 的 组 合 。 在 数据 集成 中 ， 这 样 的 组 合 非常 重要 ， 因 为 我 们 将 
要 考虑 通过 组 合 数据 源 来 回答 用 户 的 查询 ， 每 一 个 数据 源 都 对 应 一 个 视图 。 本 节 将 介绍 用 视 
图 回答 查询 的 算法 ， 并 对 视图 什么 时 候 可 用 ， 什 么 时 候 不 可 用 提供 了 一 个 更 深刻 的 理解 。 





2.4.1 问题 定义 


这 里 先 给 出 基于 视图 计算 查询 问题 的 形式 化 定义 。 本 节 假 设 给 定 一 个 视图 集 ， 用 
Vis ce, Va 表示。 除非 特殊 说 明 ， 假 设 指定 查询 和 视图 的 语言 是 合 取 查 询 。 

给 定 一 个 查询 0 和 视图 定义 集合 Vi ，…，V,， 基 于 视图 的 查询 重 写 是 一 个 仅 涉及 视 
KIV, e, Vn 的 查询 表达 式 0'。 在 SQL 中 ， 基 于 视图 的 查询 是 指 在 FROM 子 句 中 给 出 的 
所 有 关系 都 是 视图 。 在 合 取 查询 的 表示 中 ， 基 于 视图 的 查询 是 指 所 有 的 子 查询 均 是 视图 ， 
但 比较 原子 除外 。 在 实际 应 用 中 ， 可 能 也 会 对 基于 数据 库 关系 的 重 写 感 兴趣 ， 其 实 本 节 中 
给 出 的 所 有 算法 可 以 很 容易 地 扩展 到 这 种 情况 。 

这 里 涉及 的 最 自然 的 问题 是 ， 是 否 存 在 一 个 基于 视图 的 等 价 查 询 重 写 。 

定义 2. 5 (等 价 查 询 重 写 ) 令 Q 是 一 个 查询 ，y=|Vi，…，V,| 是 一 个 视图 定义 集 
合 。0Q' 是 用 V 对 0 的 一 个 等 价 重 写 ， 如 果 

© 0Q' 仅 涉及 V 中 的 视图 ， 而且 

© 0Q' 和 0 是 等 价 的 。 

例如 ， 例 2. 14 中 的 查询 OEH V AV, 对 8 的 等 价 重 写 。 注 意 ， 当 考虑 查询 OAH 
写 @ 的 等 价 性 时 ， 我 们 实际 上 要 考虑 0' 关 于 视图 的 展开 式 。 

利用 视图 集合 的 等 价 查 询 重 写 并 不 一 定 存在 ， 而 且 我 们 想 要 知道 的 是 利用 视图 集 最 好 
可 以 做 到 什么 。 例 如 ， 假 设 例 2. 14 中 ,没有 v 而 只 有 如 下 包含 1960 年 之 后 喜剧 的 视图 。 

V4(1,T, Y) :- Movie(T Y,G), Y > 1960, G=“comedy” 

虽然 我 们 不 能 用 WV 来 完整 地 回答 O,， 但 下 面 的 重 写 是 可 以 做 到 的 最 好 情况 ， 并 且 如 
果 不 能 获取 其 他 任何 数据 ， 则 这 可 能 是 唯一 的 选择 : 

QTYD):- V4(l,T,Y), V3(1,D) 

Q" 称 为 利用 V3 和 VV 对 0 的 最 大 包含 重 写 。 直 觉 上 ，0Q” 是 利用 视图 计算 查询 的 最 好 
的 合 取 查询 。 如 果 还 有 下 面 的 视图 : 

三 (TY) :- Movie(Pl,T,Y,G),Y > 1950, Y < 1955, G=“comedy” 
那么 可 以 构造 一 个 合 取 查 询 的 并 ， 这 是 可 以 找到 的 最 好 的 重 写 。 

下 面 的 定义 使 得 这 些 直 觉 更 精确 。 要 定义 最 大 包含 重 写 ， 首 先 要 指定 重 写 的 准确 语言 
(如 ， 是 否 人 允许 并 、 比 较 谓 词 ) 。 如 果 限 制 或 者 改变 重 写 的 语言 ， 则 最 大 包含 重 写 可 能 会 改 
变 。 在 下 述 定义 中 ,查询 语言 表示 为 C。 
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定义 2.6 (最 大 包含 重 写 ) 令 Q 是 一 个 查询 ，y=|V，…，V。,| AAR, CRE 
询 语 言 。 查 询 0' 是 关于 L 基 于 视图 集 V 查 询 @ 的 最 大 包含 重 写 ， 如 果 

© 0Q' 是 [中 仅 涉及 V 中 视图 的 一 个 查询 。 

e ESF F, 并且 

© 不 存在 重 写 O, EL, 4'E EQHE 不 等 价 于 0'。 

当 一 个 重 写 O' 包 含 于 R 中 ， 但 不 是 最 大 包含 重 写 时 ， 称 为 包含 重 写 。 


例 2. 15 如果 考 虑 重 写 的 语言 是 合 取 查 询 的 并 时 ， 以 下 是 0 的 最 大 包含 重 写 : 


QTYD):- Vall,T,Y), V3(1, D) 
QWT,Y,D) :- Vs(l,T,Y), V3(l, D) 


如 果 限 制 £ 为 合 取 查询 时 ， 则 0 定义 的 两 个 规则 都 将 是 最 大 包含 重 写 。 该 例子 说 明 ， 
最 大 包含 重 写 不 一 定 是 唯一 的 。 <<< 


查找 等 价 重 写 的 算法 与 查找 最 大 包含 重 写 的 算法 有 所 不 同 。 正 如 在 第 3 章 中 说 明 的 ， 
在 数据 集成 环境 中 ， 视 图 描述 数据 源 的 内 容 。 然 而 ， 数 据 源 可 能 是 不 完整 的 ， 且 没有 包含 
守 合 它们 描述 的 所 有 数据 。 此 外 ， 所 有 数据 源 合 起 来 也 可 能 不 会 覆盖 整个 关注 域 。 在 本 章 
其 余部 分 ， 除 非 男 有 说 明 ， 我 们 的 目标 是 找到 合 取 查询 的 一 个 并 集 ， 也 就 是 用 一 组 合 取 视 
图 (conjunctive views) 对 一 个 合 取 查询 进行 最 大 包含 重 写 。 


2.4.2 视图 与 查询 计算 的 相关 性 


通俗 地 说 ， 一 个 视图 对 计算 一 个 查询 有 用 ， 需 要 满足 以 下 几 个 条 件 。 首 先 ， 该 视图 提 
到 的 关系 集 应 该 与 查询 的 关系 集 重 又 。 其 次 ， 如 果 查 询 对 属性 使 用 了 谓词 ， 视 图 中 也 对 其 
使 用 了 谓词 ， 那 么 视图 必须 使 用 同等 或 逻辑 较 弱 的 谓词 ， 以 便 成 为 等 价 重 写 的 一 部 分 。 如 
果 视 图 施加 更 强 的 逻辑 谓词 ， 那 么 它 可 能 是 一 个 包含 重 写 的 一 部 分 。 

下 面 的 例子 说 明 ， 使 用 视图 计算 查询 的 一 些微 妙 之 处 。 具 体 来 说 ， 它 说 明 视 图 上 的 一 
些小 改动 即 可 导致 给 定 查 询 计算 的 失效 。 


例 2. 16 考虑 下 面 的 视图 : 

Ve(T,Y) :- Movie(lT,Y,G),Y> 1950, G=“comedy” 

V7(1,T, Y) :- Movie(|,T, Y,G), Y > 1950, G=“comedy”, Award(I, W) 
Va(l,T) :- Movie(l, T, ¥,G), Y > 1940, G=“comedy” 


Ve 与 Vi 类似, 但 它 的 头 部 不 包括 表 Movie 中 的 ID 属性， 因此 无 法 执行 与 V, 的 连接 
操作 。 视 图 V, 只 考虑 了 1950 年 后 制作 的 且 至 少 赢得 了 一 个 奖项 的 喜剧 。 因 此 ， 该 视图 使 
用 了 查询 中 不 存在 的 且 不 能 用 于 等 价 重 写 的 附加 条 件 。 但 是 ， 请 注意 ， 如 果 有 一 个 完整 性 
约束 说 明 每 部 电影 都 获奖 (不 幸 的 是 ， 这 不 太 可 能 ) ， 那 么 V 将 可 以 使 用 。 最 后 ， 视 图 V 
对 年 份 属性 使 用 了 比 在 查询 中 较 弱 的 谓词 ， 但 在 头 部 没有 包含 年 份 。 因 此 ， 重 写 不 能 在 年 
份 属性 上 应 用 适当 的 谓词 。 <<< 


接 下 来 的 几 节 将 给 出 基于 视图 查询 计算 的 适用 条 件 和 有 效 算法 。 
2.4.3 查询 重 写 的 可 能 长 度 


在 讨论 具体 基于 视图 的 查询 重 写 算法 时 ， 可 能 会 问 的 第 一 个 问题 是 : 我 们 需要 考虑 的 
可 能 重 写 的 空间 是 什么 ? 下 面 要 给 出 的 一 个 基本 结论 是 ， 对 有 nn 个 子 查询 的 合 取 查询 ， 无 
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须 考虑 有 超过 n 个 子 查 询 的 查询 重 写 。 这 一 结论 保证 我 们 可 以 只 考虑 至 多 有 n 个 子 查 询 的 
重 写 集 ， 并 且 找 到 搜索 这 一 集合 的 高 效 方法 。 

定理 2.9 令 Q 和 V=|Vi,…，V| 是 没有 比较 谓词 或 否定 的 合 取 查询 ，n 是 Q 中 子 
查询 的 数目 。 

© 如 果 存 在 一 个 0 的 使 用 y 构 成 的 等 价 合 取 重 写 ， 则 存在 一 个 至 多 包含 个 子 查询 的 查询 。 

© 如 果 0Q' 是 0 的 使 用 y 构 成 的 包含 合 取 重 写 ， 并且 包含 多 于 nn 个 子 查询 ， 则 存在 一 

AGREE QO", REIER, LESES n AFEN, 
证 明 : 该 查询 的 形式 如 下 : 


Q(A) :- @1(A1), ..., en(An) 
且 假 设 
Q(X) :- vi (X), DZm(Xm) 


是 使 用 ”构成 的 @ 的 等 价 重 写 ， 其 中 vw 是 表示 视图 关系 的 子 查 询 ， 且 m >n。0' 关 于 视图 
定义 的 展开 式 为 : 
Q(X) :- el (XI), ..., el R), 
el (Xl), ..., 2X2), 


eL (Xt), .. lm (Xin) 

HŽ, 0, SFO’. ANQ=0', MU—EA—TMHM QO FO) 的 包含 映射 。 令 从 Q 到 
Q, 的 包含 映射 为 水 。 HF RA n ATEH, MAy 只 能 出 现在 Q! 定义 的 至 多 nn 行 中 。 不 
失 一 般 性 ， 假 设 它们 是 前 £ 行 ， 其 中 <n。 现在 考虑 只 包含 0' 前 个子 查询 的 重 写 0”。 包 
含 映射 yy 仍然 能 确定 0= 0'， 因 为 0" 包 含 0' 的 子 查询 的 子 集 ， 所 以 显然 0 号 0' 成 立 ， 因 此 
Oo Q., WA, Q=", H 0 至 多 包含 对 个 子 查询 。 同 理 可 证 定理 的 第 二 部 分 。 画 

定理 2. 9 给 出 了 第 一 个 给 定 视图 集 找到 一 个 查询 重 写 的 简单 算法 。 具 体 来 说 ， 对 最 多 
具有 nn 个子 查询 的 视图 集 y， 其 可 能 的 查询 重 写 数 是 有 限 的 ， 因 为 每 个 视图 可 考虑 的 变 元 
组 合 数量 是 有 限 的 。 因 此 ， 要 找到 一 个 等 价 重 写 ， 该 算法 可 以 进行 如 下 操作 : 

。 假设 0 的 一 个 重 写 0' 包 含 至 多 nn 个 子 查询 。 

。 检测 是 否 0'=0。 

同样 ， 所 有 长 度 至 多 为 n 个 子 查 询 的 重 写 Q (E EQ) 的 并 集 ， 是 0 的 一 个 最 大 
包含 重 写 。 

该 算法 表明 ， 要 使 用 一 组 合 取 视图 找到 一 个 合 取 查询 的 等 价 重 写 是 一 个 NP 问题 。 事 
实 上 ， 该 问题 也 是 NP-hard 的 ， 因 此 是 NP 完全 问题 。 采 用 这 种 算法 是 不 切实 际 的 ， 因 为 
这 意味 着 要 列举 所 有 可 能 的 长 度 至 多 为 n 个 子 查询 的 重 写 ， 并 检查 这 些 重 写 是 否 与 查询 等 
价 。 下 一 节 介 绍 的 寻找 最 大 包含 重 写 算法 是 在 实际 中 有 效 的 。 


2.4.4 桶 算法 和 MiniCon 算法 


本 节 介 绍 两 种 算法 一 一 桶 (Bucket) 算法 和 MiniCon 算法 ， 利 用 它们 可 以 大 大 减少 给 
定 一 组 视图 需要 为 查询 考虑 的 重 写 数量 。 大 致 讲 ， 这 些 算法 首先 确定 一 组 与 每 个 子 查询 相 
关 的 视图 原子 (view atom) ， 然 后 仅 考虑 这 些 原子 组 合 。MiniCon 算法 更 进一步 ， 它 还 考虑 
了 一 些 视 图 子 查询 之 间 的 交集 情况 ， 因 此 可 以 进一步 降低 需要 考虑 的 组 合 数量 。 
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桶 算法 的 主要 思想 是 ， 如 果 先 单独 地 考查 查询 中 的 每 个 子 查询 ， 并 确定 哪些 视图 可 能 
与 该 子 查询 相关 ， 则 需要 考虑 的 查询 重 写 的 数量 可 以 大 大 减少 。 正 如 后 面 要 讨论 的 ， 桶 算 
法 不 能 保证 找到 所 有 的 最 大 包含 重 写 。 然 而 ， 由 于 当 查询 和 视图 包含 比较 谓词 时 可 以 有 效 
减少 重 写 数量 ， 所 以 我 们 在 算法 描述 和 例子 中 使 用 了 该 算法 。 

该 算法 的 第 一 步 如 算法 3 所 示 。 该 算法 为 查询 中 每 个 子 查询 g 构造 一 个 相关 视图 原子 
的 桶 。 如 果 视 图 原子 的 一 个 子 查询 可 以 在 重 写 中 发 挥 g 的 作用 ， 则 该 视图 原子 是 相关 的 。 
要 做 到 这 一 点 ， 必 须 满足 以 下 几 个 条 件 : 1) 视图 子 查询 应 该 作用 在 与 g 相同 的 关系 上 ; 
2) 在 经 过 适当 的 蔡 代 后 ， 视 图 和 查询 的 比较 谓词 是 相互 满足 的 ; 3) WR g 包含 查询 的 头 
部 变 元 ， 则 在 了 中 的 相应 变 元 也 必须 是 视图 中 的 一 个 头 部 变 元 。 


算法 3 CreateBuckets: 创建 桶 


输入 : SHAW Q, Wi Q(X) -R (X), R(X); 合 取 视图 集合 V。 
输出 : 桶 列表 。 
for | <i<n do 

将 Bucket; 初始 化 为 如 
end for 
fori=1, =, n do 

for 4^ Ve V do 

令 了 为 : VOY) := Si (Y) sS (Yin) ody 9187 5d, 








for ;=1, =, m do 
if R; =S, then 
] 令 乡 为 定义 在 了 的 变量 上 的 如 下 映射: 
Ay HY, PHONE, He AX, 中 第 b 个 变量 
if x e X #@ y g Y then 
少 未 定义 并 且 执 行 下 一 个 7) 


else if ye Y then 
ly) =x 
else 
wy) 是 未 出 现在 Q@ 或 下 中 的 一 个 新 变量 
end if 
MA 令 0' 为 如 下 查询 : 
Q' = Ri (X1) yo Ry (Ny) ,cs eS pF)) ,eS Yn) dy) 2 dy) 
if @' 是 可 满足 的 then 
将 (VV) 添加 到 桶 Bucket, 
end if 
end if 
end for 
end for 
end for 
return Bucket, , -*-, Bucket, 


桶 算法 的 第 二 步 考虑 所 有 可 能 的 重 写 组 合 。 每 一 种 组 合 ， 都 包含 每 个 桶 〈 如 果 需 要 ， 
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可 以 消除 重复 原子 ) 的 一 个 视图 原子 。 这 一 阶段 的 算法 会 因 以 下 情况 不 同 而 有 所 不 同 ， 即 
我 们 是 要 寻找 一 个 基于 视图 的 等 价 查 询 重 写 ， 还 是 最 大 包含 重 写 : 
。 对 于 等 价 重 写 ， 我 们 考虑 每 个 候选 重 写 0'， 并 检查 是 否 0'=Q 或 者 是 否 存 在 可 以 
添加 到 0' 中 的 比较 原子 C， 使 得 QA 人 C=0Q'。 
。 对 于 最 大 包含 重 写 ， 通 过 考虑 每 个 合 取 重 写 0'， 构 造 合 取 查 询 的 一 个 并 集 : 
o 如 果 Q's 4， 则 Q' 包 含 于 并 集中 。 
o 如 果 存 在 可 以 添加 到 Q' 中 的 比较 原子 C， 使 得 0' 和 Cs Q， 则 Q'AC 包含 于 并 集中 。 
Oo 如 果 @Eo@ 但 在 @ 的 头 部 变 元 上 存在 一 个 同 构 少 ， 使 得 VOD)EQ@， 则 将 炎 (Q") 
包含 在 并 集中 。 


例 2.17 继续 用 电影 数据 库 的 例子 ， 假 设 我 们 也 有 关系 Revenues(ID, Amount), 
它 表 示 随 着 时 间 的 推移 每 部 电影 获得 的 收入 ， 假 设 电 影 标 识 符 ID 是 整数 。 考 虑 一 个 查询 ， 
查找 票房 显著 的 电影 导演 : 


Q(ID, Dir) :- Movie(ID, Title, Year, Genre), Revenues(ID, Amount), Director(ID, Dir), 
Amount > $100M 

假设 我 们 拥有 下 面 的 视图 : 

Vill,Y)  :-Movie(lT,Y,G), Revenues(l,A),1>= 5000, A > $200M 

V2(l,A)  :- Movie(|,T, Y,G), Revenues(l, A) 

V3(1,A)  :- Revenues(l, A), A < $50M 

V4(l,D,Y) :- Movie(l,T,Y,G), Director(l, D), | < 3000 

在 第 一 步 中 ， 算 法 依次 为 查询 的 每 个 子 查询 的 关系 创建 一 个 桶 。 表 2-1 给 出 了 桶 的 最 终 内 
容 。Movie(ID，Title，Year，Genre) 的 桶 包含 视图 Vi, V 和 由。 注意 ， 桶 中 每 个 视图 的 头 


部 只 包括 映射 域 的 变 元 。 新 的 变 元 用 于 该 视图 的 其 他 头 部 变 元 (如 V,(ID, A’) 中 的 A')。 





表 2-1 桶 的 内 容 
Movie( ID , Title, Year, Genre ) Revenues( ID , Amount) Director( ID , Dir) 
V, (ID, Year) Vv, (ID,Y’) V, (ID, Dir, Y’) 
V,(1ID,A’) V, (ID, Amount) 


V,(1ID,D’, Year) 
注 ; 带 有 捐 符 号 的 变量 是 那些 没有 出 现在 统一 映射 域 中 的 变量 。 


子 查 询 Revenues(ID，Amount) 的 桶 包含 视图 V, 和 V,，Director(ID，Dir) 的 桶 
包括 V, 的 一 个 原子 。 没 有 V, 的 原子 在 Revenues(1，A) 的 桶 中 ， 因 为 V; 中 考虑 的 收入 
约束 与 查询 中 的 谓词 是 不 能 相互 满足 的 。 

该 算法 的 第 二 步 ， 合 并 桶 中 的 元 素 。 首 先 合并 每 个 桶 中 的 第 一 个 元 素 ， 得 出 如 下 的 重 写 : 

qi (ID, Dir) :- Vi (ID, Year), Vi(ID, Y’), Va(ID, Dir, Y”) 

然而 ，V 和 Vs 对 于 查询 是 相互 独立 的 ， 因 为 它们 包含 了 电影 标识 符 不 相交 的 集合 ， 
因此 它们 的 组 合 一 定 是 空 的 。 

考虑 左边 两 个 桶 的 第 二 个 元 素 ， 得 出 如 下 重 写 : 

q2 (ID, Dir) :- Vo(ID,A’), Vo(ID, Amount), Va (ID, Dir, Y’) 
显然 ， 这 个 重 写 并 不 包含 在 查询 中 ,但 可 以 通过 增加 谓词 Amount> $100M， 并 删除 一 
个 宛 余子 查询 V,(1ID，A') 的 方法 ， 获 得 如 下 包含 重 写 : 


q3(ID, Dir) :- V2(ID, Amount), V4(ID, Dir, Y’), Amount > $100M 


最 后 ， 组 合 每 个 桶 中 最 后 一 个 元 素 得 到 : 
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q,(\D, Dir) :- V4(ID,D’, Year), V2(ID, Amount), V4(ID, Dir, Y^) 
然而 ， 在 删除 第 一 个 宛 余 的 子 查询 并 添加 谓词 Amount> $100M 后 ， 我 们 将 再 次 得 
到 gs ， 它 是 算法 找到 的 唯一 的 包含 重 写 。 <<< 


MiniCon 算法 
MiniCon 算法 也 分 两 步 进行 。 开 始 时 它 与 桶 算法 类 似 ， 考 虑 哪些 视图 包含 与 查询 中 子 查询 g 
相关 的 子 查询 。 然 而 ， 一旦 算法 找到 一 个 从 查询 中 的 子 查询 g 到 视图 了 子 查询 g 的 局 部 映射 ， 
它 就 尝试 确定 该 视图 中 哪些 其 他 子 查询 也 必须 用 来 与 g, 合 取 。 假设 g 将 被 映射 到 g, ， 该 算法 考 
虑 查询 中 的 连接 谓词 (由 相同 变 元 的 多 次 出 现 所 确定 )， 并 且 找 到 需要 被 映射 到 VV 中 子 查询 的 
最 小 附加 子 查询 集 。 这 组 子 查询 和 映射 信息 称 为 MiniCon 描述 ( MCD)， 可 以 看 成 是 桶 的 泛 化 
(generalization ) 。 下 面 的 例子 说 明 MiniCon 算法 背后 的 直观 认识 以 及 与 桶 算法 的 不 同 。 


例 2. 18 在 相同 的 电影 模式 下 ， 考 虑 下 面 的 例子 : 


Qi (Title, Year, Dir) :- Movie(ID, Title, Year, Genre), Director(ID, Dir), Actor(ID, Dir) 
Vs(D, A) :- Director(l, D), Actor(l, A) 
Ve{T, Y,D, A) :- Director(l, D), Actor(l, A),Movie(l, T, Y, G) 


在 第 一 步 中 ， 桶 算法 把 原子 V;(Dir，A') 和 Vi(D'，Dir) 分 别 放 到 桶 Director (ID, 
Dir) 和 Actor(ID, Dir) 中 。 但 是 ， 仔 细 分 析 发 现 ， 这 两 个 桶 项 对 重 写 没 有 用 。 具 体 来 说 ， 
假设 变 元 Dir 被 映射 到 Vs 的 变 元 D 〈 见 下 图 ) 。 变 元 ID 需要 映射 到 Vs 中 的 变 元 1, 但 1 不 是 
V; 的 头 部 变 元 ， 因 此 将 无 法 将 V; 中 的 Director 子 查 询 与 查询 中 的 其 他 子 查询 进行 连接 。 

Q\ (Title, Year, Amount) :- Director(ID, Dir),Actor(ID,Dir),Movie(ID, Title, Year, Genre) 


4 4 
Vs(D,A) :- Director(l, D) Actor(l, A) 


MiniCon 算法 发 现 ，V; 不 能 用 来 应 答 查询 ， 因 此 忽略 它 。 接 下 来 描述 该 算法 的 细节 。 <<< 


步骤 1: 创建 MCD 


MCD 是 一 个 从 查询 中 的 变 元 子 集 到 某 个 视图 的 变 元 的 映射 。 直 观 地 说 ， 一 个 MCD 表 
示 从 查询 到 查询 重 写 的 一 个 包含 映射 的 一 个 片段 。 我 们 构建 MCD 的 方法 确保 这 些 片 段 可 
以 无 颖 地 组 合 起 来 。 

在 算法 描述 中 ， 使 用 以 下 条 件 。 首 先 ， 给 定 一 个 从 Vars(Q) 到 Vars(V) 的 映射 r， 
WÈ rle) =g,， 我 们 称 视图 子 查 询 g 覆盖 查询 的 子 查询 g。 其 次 ， 常 常 需要 考虑 视图 的 
特殊 化 (specialization) ， 通 过 引用 视图 中 的 一 些 头 部 变 元 形成 〈 例 如 ， 在 我 们 的 例子 中 用 
V.(T, Y, D, D) 代替 Vs(T，Y，D，A) )。 我 们 用 头 部 同 态 描述 这 些 特 殊 化 。 一 个 视 
E V ERARA h ÆA Vars( V) 到 Vars(V) 的 映射 h， 它 在 已 有 变 元 上 的 值 都 是 相同 
的 ,但 是 也 可 以 等 于 可 辨识 的 (distinguished) 变 元 ， 即 对 每 个 可 辨识 的 变 元 x, A(x) 是 
也 是 可 区 分 的 ， 且 h(x) = A(h(x)) 。 现 在 我 们 可 以 形式 化 定义 MCD。 

定义 2.7 (MiniCon #38) ”视图 了 上 查询 Q 的 MCD CHB (he, V(Y)。，ge， 
Gc) 的 一 个 元 组 ， 其 中 : 

© hc 是 下 上 的 一 个 头 部 同 态 。 

© V(Y)。 是 对 V 使 用 hh 的 结果 ， 即 Y=hc(A)， 其 中 4 是 V 的 头 部 变 元 。 

© gc 是 从 Vars(Q) 到 hh.(Vars(TV)) 的 一 个 部 分 映射 ， 且 

© Gc 是 @ 中 子 查询 的 子 集 ， 被 ic(Y) 中 的 一 些 子 查询 使 用 映射 pe BS. 
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AME, ge 是 从 0 到 通过 头 部 同 态 hi 得 到 的 特殊 化 视图 了 的 一 个 映射 。 该 算法 的 主 
要 思想 是 要 仔细 选择 通过 映射 pc 所 覆盖 的 0 的 子 查询 子 集 Cc。 该 算法 将 只 使 用 满足 以 下 
属性 的 MCD: 

属性 2.1 令 C 是 VV 上 0 的 一 个 MCD。MiniCon 算法 考虑 C， 仅 当 它 满足 以 下 条 件 。 

C1 对 于 0Q 的 每 个 在 pe MPHABEAX, O(X) 是 he(V) 中 的 一 个 头 部 变 元 。 

C2 wR o(X) 是 he(V) 中 的 一 个 已 有 变 元 ， 则 对 于 每 个 包括 下 的 g@ 的 子 查询 g， 
A: 1) g 中 所 有 变 元 在 pc HAP; 并 且 2) pc(g) ehc(V)。 

桶 算法 也 要 求 满足 条 件 C1。 条 件 C2 表述 了 在 我 们 例子 中 说 明 的 直观 认识 。 如 果 一 个 
变 元 站 是 不 被 视图 强制 的 连接 谓词 的 一 部 分 ， 则 XX 必须 在 视图 头 部 ， 从 而 该 连接 谓词 可 以 
被 重 写 的 其 他 子 查询 所 使 用 。 在 我 们 的 例子 中 ， 条 件 C2 将 为 查询 Qi 排除 使 用 Vo 

算法 4 用 于 构建 MCD。 注 意 ， 该 算 不 考虑 所 有 可 能 的 MCD， 为 了 统一 视图 子 查询 与 
查询 的 子 查询 ， 仅 考虑 那些 其 中 he 是 限制 最 少 的 头 部 同 态 的 那些 MCD。 


算法 4 FormMCDs: MiniCon 算法 的 第 一 步 。 注 意 : KH (b) HEA 和 gc 
求 满足 条 件 的 最 小 C.， 因 此 条 件 (c) 并 不 元 余 
HA: 合 取 查询 @; 合 取 查询 的 集合 V。 
输出 : MCD 的 集合 C。 
初始 化 C:= OD 
for 每 个 子 查询 geEOdo 
for 视图 VeV 并 且 每 个 子 查询 veV do 
令 刀 为 视图 了 上 最 小 限制 的 头 部 同 态 ， 则 存在 一 个 映射 p， 使 得 p(g) =h(v) 
if h 和 gp 存在 then 
将 可 以 生成 的 任何 新 的 MCD 添加 到 C +, HH, 
(a) pc(resp. hc) 是 gp 的 一 个 扩展 (resp. h) 
(b) Gc 是 @ 的 子 查 询 的 最 小 子 集 ,， 使 得 Gc、ge 以 及 h 满足 属性 2.1， 并 且 
(c) 不 能 将 和 及 扩展 为 ps 和 hhc， 使 得 满足 条 件 (b)， 并 且 正 如 (b) 中 所 定义 的 Gr EE, 
的 一 个 子 集 





























end if 
end for 







end for 
return C 






例 2. 19 在 我 们 的 例子 中 ， 在 发 现 V; 不 能 用 于 任何 MCD 后 ， 算 法 将 为 Vo 创建 一 
个 MCD: 

(A — D, Ve(T, Y, D, D), Title — T, Year — Y, Dir > D,{1,2,3)) 
注意 ， 在 MCD 中 头 同 态 将 Vs 中 的 变 元 A 映射 为 D， 且 该 MCD 包括 来 自 查询 的 所 有 子 
查询 。 <<< 


步骤 2: 组 合 MCD 


在 第 二 阶段 ，MiniCon 算法 通过 组 合 MCD 来 创建 合 取 重 写 ， 并 输出 合 取 查询 的 并 集 。 
由 于 MCD 的 构造 方式 ， 所 以 该 算法 的 第 二 阶段 实际 上 比 桶 算法 相应 阶段 更 简单 有 效 。 具 
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体 来 说 ， 无 论 何 时 ， 一 个 MCD 集合 覆盖 查询 中 子 查询 的 互 不 相交 的 子 集 ， 但 合 起 来 又 覆 
盖 所 有 子 查询 ， 由 此 确保 生成 的 重 写 是 包含 重 写 。 因 此 ， 在 此 阶段 不 需要 执行 任何 包含 检 
查 。 算 法 5 用 于 组 合 MCD。 


算法 5 CombineMCDs: MiniCon 算法 的 第 二 阶段 一 一 合并 MCD 


A: MCD C， 形 如 (he, WY), pc, Ge, ECc)。 
输出 : 重 写 的 查询 。 
1/ 给 定 一 组 MCD，C,,，…，C,，Vars(Q) 的 函数 EC 定义 如 下 : 
if for i#j, EC, (x) #EC, (x) then 

将 ECe(x) 定 为 这 两 种 形式 的 任意 一 种 ， 但 是 对 所 有 的 了 都 要 满足 EC,(y) =EC, (x) 
end if 
初始 化 Answer = Ø 
for C 的 每 个 满足 如 下 条 件 的 子 集 C1 ，…，C,， 有 : 1) Go UGec,U…UGc, =subgoals(Q); 2) for 每 
个 i#j, Go NG =Ø do 
定义 到 上 的 一 个 映射 VY, 如 下 : 
让 存在 一 个 变量 x*e 0Q， 使 得 p(x) =y then 

AW (y) =x 
else 

AWW y HAH HH Bl 

创建 一 个 合 取 重 写 @'(EC(X)) :- Ve, (EC( (Yo, ))) ,Ye (ECC, (Yo, ))) 

将 0' 添 加 到 Answer 中 
end if 
end for 




























return Answer 


最 小 化 重 写 


该 算法 的 第 二 阶段 产生 的 重 写 可 能 是 宛 余 的 。 通 常 可 以 使 用 合 取 查询 最 小 化 技术 将 其 最 
小 化 。 然 而 ， 有 一 种 元 余子 查询 可 以 通过 下 面 的 方法 更 为 简单 地 识别 。 假 设 重 写 0' 包 含 同一 
视图 的 两 个 原子 4, 和 4,， 其 MCD 分 别 是 C, 和 C,， 并 满足 下 列 条 件 : 1) 当 4,( 或 4,) 在 
位 置 : 有 0 的 一 个 变 元 , WARA) 在 该 位 置 出 也 具有 同一 个 变 元 或 一 个 8 中 没有 的 变 
元 ; 2) po 和 we 的 域 在 了 的 已 有 变 元 上 互 不 重 春 。 在 这 种 情况 下 ， 可 以 通过 对 0' 使 用 同 态 
7 去 除 其 中 的 一 个 原子 ， 该 同 态 是 : 1) 与 0 的 变 元 相同 ; 2) A, 和 4, 的 最 广 通 代 。 


查询 和 视图 中 的 常量 


当 查 询 或 视图 包含 常量 时 ， 我 们 对 算法 做 如 下 修改 。 首 先 ，MCD 中 gc 的 定义 域 和 值 
域 可 能 也 包含 常量 。 其 次 ，MCD 还 记录 了 一 个 从 Vars(Q) 中 的 变 元 到 常量 的 映射 集合 Ve 
〈 可 能 为 空 ) 。 

当 查 询 包含 常量 时 ， 我 们 为 属性 2. 1 添加 下 面 的 条 件 。 
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C3 如 果 a 是 0 中 的 一 个 常量 ,那么 它 一 定 是 下 述 两 种 情况 之 一 : 1) gela) 是 
he(V) 中 一 个 可 辨识 的 变 元 ; 或 者 2) oela) 是 常量 a。 
当 视 图 中 包含 常量 时 ， 对 属性 2. 1 做 如 下 调整 : 
© 放松 条 件 C1: 出 现在 查询 头 部 的 变 元 x 必须 映射 到 视图 的 头 部 变 元 ( 如 前 所 述 ) 
或 者 映射 到 一 个 常数 c。 后 者 ， 将 映射 xo 添加 到 Pe Po 

。 如 果 gc(x) 是 一 个 常量 a， 那 么 我 们 添加 映射 x*->a BYP. CER, 条件 C2 仅 
用 于 已 存在 的 变 元 ， 因 此 如 果 gc (x) 是 一 个 出 现在 V 查询 主体 而 不 是 头 部 的 常 
数 ， 则 仍 可 以 创建 一 个 MCD)。 

其 次 ,需要 额外 做 一 些 事情 来 组 合 MCD。 两 个 MCD，C, 和 C,， 两 者 的 域 中 都 包含 x， 
可 以 将 它们 进行 组 合 ， 仅 当 : 1) 都 将 * 映射 到 一 个 常量 ; 或 者 2) 其 中 一 个 MCD (例如 ， 
C) 将 x 映射 到 一 个 常量 ,， 并且 另 一 个 MCD( 如 C,) 则 将 x 映射 到 视图 中 的 一 个 可 辨识 变 
元 。 注 意 ， 如 果 C, 将 x 映射 到 视图 中 的 一 个 存在 变 元 ， 则 MiniCon 算法 不 会 考虑 首先 将 
C, 和 C, 组 合 ， 因 为 它们 会 使 Ce RAER., 

最 后 ， 修 改 EC 的 定义 ， 使 得 尽 可 能 地 选择 一 个 常量 而 不 是 一 个 变 元 。 


计算 复杂 度 


桶 和 MiniCon 算法 在 最 坏 情况 下 的 计算 复杂 度 是 相同 的 。 在 这 两 种 情况 下 ， 运 行 时 间 
都 是 0(nmM)"， 其 中 是 查询 中 子 查询 的 数量 ，m 是 视图 中 子 查询 的 最 大 数目 ，M 是 视 
图 数 。 


2.4.5 ZEHE: 逆 规 则 算法 


本 节 我 们 介绍 了 一 个 使 用 视图 的 查询 重 写 算 法 ， 它 对 该 问题 采用 了 一 个 纯粹 的 逻辑 方 
法 。 下 面 的 例子 说 明了 该 算法 背后 的 基本 思想 。 


例 2. 20 考虑 之 前 例子 中 的 视图 : 

V7(I,T, Y,G) :- Movie(l,T, Y,G), Director(l, D), Actor(l, D) 

假设 已 知 元 组 (79522，Manhattan ，1979，Comedy) Æ V, 的 扩展 中 。 显 然 ， 可 
以 推出 Movie(79522, Manhattan, 1979, Comedy) mar, BEE, FE gH ee 
辑 上 合理 的 : 

IN1: Movie(l, T, ¥,G) :-V7(T,Y,G) 

还 可 以 从 V,(79522, Manhattan, 1979, Comedy) 中 推出 ， 一 些 元 组 在 Direc- 
tor 和 Actor 中 ,但 这 有 点 儿 复 杂 。 尤 其 是 ， 我们 不 知道 在 数据 库 中 哪个 D 值 产生 了 
V;(79522 ,Manhattan ，1979，Comedy ) 。 我 们 所 知道 的 是 ， 存 在 一 些 常数 c， 使 得 
Director( 79522, c), Actor(79522, c) 成 立 。 可 以 使 用 如 下 规则 表达 该 推理 : 


IN2: Director(l, f10,T,Y,G)) :- V7(,T,Y,G) 
IN3: Actor(I,f;(1,T,¥,G)) :- Vz(,T,Y,G) 


和 (1，T，Y，G) 项 称 为 SKolem 项 ， 表 示 某 个 取决 于 值 1、T、Y、G 和 函数 f 的 常量 。 
给 定 两 个 不 一 致 的 SKolem 项 ， 我 们 不 知道 它们 是 否 表示 数据 库 中 的 同一 个 常量 ， 只 知道 
它们 都 存在 。 

逆 规 则 算法 所 产生 的 查询 重 写 包 含 了 所 有 的 为 每 个 视图 定义 所 得 出 的 道 规则 以 及 定义 
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查询 的 规则 。 在 我 们 的 例子 中 ， 逆 规则 为 IN, 、IN,、IN3。 为 了 说 明 问 题 ， 假 设 查 询 要 找 
所 有 电影 的 标题 、 类 型 和 年 份 : 
Q(Title, Year, Genre) :- Movie(ID, Title, Year, Genre) 
在 扩展 V (79522, Manhattan, 1979, Comedy) 上 计算 逆 规 则 ， 得 出 如 下 的 元 组 : 
Movie(79522, Manhattan, 1979, Comedy), 


Director(79522, f;((79522, Manhattan, 1979, Comedy)) 
Actor(79522, fı ((79522, Manhattan, 1979, Comedy)). 


在 该 元 组 集 上 计算 Q, 会 得 出 Movie( Manhattan, 1979, Comedy) 的 结果 。 <<< 


[57 | 


算法 6 CreatelnverseRules: 逆 规 则 重 写 算 法 。 注 意 ， 结 果 包 含 原始 的 查询 以 及 逆 规 则 尺 
输入 : 取 查 询 Q; 合 取 视 图 定义 集合 V。 
输出 : 应 答 0 的 datalog 程序 。 
令 R=@g 
for 每 个 VeV do 
AV we: 0X) p(X) A) ， 并 假设 了 中 的 存在 变量 为 已 ，…， 了 。 
forj=1, =, n do 
AX 是 从 总 创建 的 变量 的 元 组 
if X = Y, then 
用 XOX 中 的 ,替换 
else 
X Py X RA 
end if 
ÉIRE Am 3 AL = p (Xi) :- v(X) 


end for 






















end for 


return QU R 





算法 6 生成 了 逆 规 则 重 写 。 
2.4.6 算法 比较 


桶 算法 的 优点 是 ， 它 利用 查询 中 的 比较 原子 有 效 地 修剪 需要 考虑 的 候选 合 取 重 写 的 
数量 。 当 涉及 的 谓词 是 算术 比较 时 ， 检 查 视图 是 否 属于 一 个 桶 可 以 在 查询 和 视图 定义 的 
大 小 的 多 项 式 时 间 内 完成 。 因 此 ， 如 果 视 图 可 以 通过 包含 的 不 同比 较 谓词 来 区 分 ， 则 产 
生 的 桶 将 会 相对 较 小 。 当 我 们 将 基于 视图 的 查询 重 写 用 于 集成 万 维 网 上 的 数据 时 ， 这 是 
一 种 常见 的 情况 ， 万维网 上 的 数据 源 (用 视图 建 模 ) 通过 它们 的 地 理 区 域 或 其 他 比较 
谓词 来 区 分 。 

然而 ， 桶 算法 不 考虑 在 查询 和 视图 中 不 同 子 查询 之 间 的 相互 作用 ， 因 此 ， 桶 可 能 包含 
不 相关 的 子 查询 。MiniCon 算法 克服 了 这 一 问题 。 此 外 ， 由 于 MCD 构建 的 方式 ，MiniCon 
算法 的 第 二 阶段 不 需要 包含 检查 ， 所 以 更 为 有 效 。 在 实验 中 ，MiniCon 算法 的 速度 都 比 桶 
算法 快 。 首 规则 算法 与 桶 算法 和 MiniCon 算法 相 比 的 主要 优点 是 它 的 概念 简单 ， 它 基于 一 
个 纯粹 的 逻辑 方法 来 反 推 视图 的 定义 。 由 于 它 的 简单 性 ， 所 以 算法 也 可 以 应 用 于 0 是 递归 
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查询 并 且 已 知 函数 依赖 的 情况 ， 这 将 在 第 3 章 中 讨论 。 此 外 ， 逆 规则 可 以 在 视图 定义 的 大 
小 的 多 项 式 时 间 里 创建 。 请 注意 ， 该 算法 并 没有 告诉 我 们 ， 最 大 包含 重 写 是 否 等 价 于 原来 
的 查询 (因而 避免 了 成 为 NP 困难 (NP-hardness) 问题 ) 。 

男 一 方面 ， 逆 规则 算法 所 产生 的 重 写 往往 会 导致 一 个 查询 对 视图 扩展 的 计算 更 为 费 
时 。 其 原因 是 ， 桶 和 MiniCon 算法 创建 桶 和 MCD 时 会 参考 查询 Q 的 语 境 ， 而 逆 规 则 只 是 
基于 视图 定义 的 计算 。 实 验 表明 ，MiniCon 算法 通常 比 逆 规 则 算法 快 。 


2.4.7 基于 视图 的 查询 应 答 


到 目前 为 止 ， 已 经 介绍 了 给 定 一 个 视图 集 为 一 个 查询 查找 最 大 包含 重 写 的 算法 。 然 
而 ， 对 于 我 们 考虑 要 重 写 的 查询 语言 来 说 ， 这 些 重 写 是 最 大 的 。 在 讨论 中 ， 已 经 考虑 了 重 
写 可 以 表述 为 合 取 查 询 的 并 。 

在 本 节 中 ， 我 们 考虑 一 个 更 一 般 的 问题 : 给 定 一 个 查询 Q， 一 组 视图 定义 7 =V,, e, V,, 
以 及 每 个 视图 的 扩展 ,，v =v，…，vw,， 那 么 可 以 从 Vv 和 wv 推导 出 来 的 0 的 所 有 答案 是 什么 ? 
从 引入 确定 答案 (certain answer) 的 概念 开始 ， 可 以 形式 化 地 描述 上 述 问题 ， 然 后 介绍 一 
些 关 于 寻找 确定 答案 的 基本 方法 。 

给 定数 据 库 D 和 查询 CQ， 我 们 确定 知道 OM MASSE. Ri, MRABEVA >， 则 
不 能 精确 知道 D 的 内 容 。 相 反 ， 我 们 只 有 数据 库 D 真实 状态 的 部 分 信息 。 该 信息 是 部 分 
的 ， 这 里 是 我 们 所 知道 的 数据 库 D 上 某 些 查询 的 答案 。 


例 2.21 假设 我 们 拥有 如 下 的 视图 ， 分 别 是 计算 演员 和 导演 的 集合 : 
Vg(Dir) :- Director(ID, Dir) 
Vg(Actor) :- Actor(ID, Actor) 


假设 我 们 有 下 面 的 视图 扩展 : 
vg: {Allen, Coppola} 
vg: {Keaton, Pacino} 


存在 多 个 数据 库 可 以 产生 这 些 视图 扩展 。 例 如 ， 在 一 个 数据 库 中 ， 导 演 和 演员 对 是 ( (Allen, 
Keaton), (Coppola，Pacino ) ) ， 而 在 另 一 个 数据 库 中 ， 可 能 是 ((Allen, Pacino), 
(Coppola，Keaton ) ) 。 事 实 上 ， 包 含 所 有 可 能 对 的 数据 库 ， 也 会 生成 这 个 相同 的 视图 
扩展 。 <<< 


有 了 这 些 部 分 信息 ， 我 们 所 知道 的 是 D 在 可 能 数据 库 (possible database) 的 某 个 集合 
D 中 。 然 而 ， 对 于 每 个 数据 库 De D，0 的 答案 可 能 是 不 同 的 。 下 面 将 要 定义 的 确定 答案 ， 
是 指 那些 满足 D 中 每 个 数据 库 上 查询 OMAR. 

在 形式 化 定义 确定 答案 之 前 ， 需 要 明确 关于 视图 完备 性 的 假设 。 这 里 首先 要 区 分 封闭 
世界 假设 和 开放 世界 假设 。 在 封闭 世界 假设 下 ， 假 设 扩展 "包含 其 相应 视图 中 的 所 有 元 
组 ， 而 在 开放 世界 假设 下 ， 它 们 可 能 只 包含 视图 中 元 组 的 一 个 子 集 。 封 闭 世界 假设 通常 在 
利用 试图 进行 查询 优化 时 使 用 ， 开 放 世 界 假设 通常 用 于 数据 集成 中 。 

现在 ， 可 以 形式 化 定义 确定 答案 的 概念 。 

定义 2.8 (MEER) 40 是 一 个 查询 ,7 = | 了 内，…， 了 内 是 定义 在 数据 库 模式 
R, -, R, 上 的 视图 集合 。 令 元 组 集 v=v，…， v, 分别 是 视图 VI ，…，V 的 扩展 。 

在 封闭 世界 假设 下 ， 给 定 v，，…，v,， 如 果 对 于 所 有 数据 库 实例 D 有 te0Q(D) 使 得 
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M4ER i, l<i<m, AAA V (D) =v,， 则 元 组 1 是 查询 0 的 一 个 确定 答案 。 


在 开放 世界 假设 下 ， 给 定 v，…，v,， 如 果 对 于 所 有 数据 库 实例 有 teQ(D)， 使 得 
对 任意 i,，1 i<sm， 有 VV.(D) Dv;， 则 元 组 it 是 查询 0 的 一 个 确定 答案 。 

例 2.22 考虑 视图 

Vg(Dir) :- Director(ID, Dir) 


Vg(Actor) :- Actor(ID, Actor) 


在 封闭 世界 假设 下 ， 只 存在 一 个 单一 数据 库 与 视图 扩展 一 致 。 因 此 ， 给 定 查询 


Q4(Dir, Actor) :- Director(ID, Dir), Actor(ID, Actor) 
元 组 (Allen, Keaton) 是 一 个 确定 答案 。 然 而 在 开放 世界 假设 下 ， 该 元 组 不 再 是 一 个 确 
定 答案 ， 因 为 视图 扩展 可 能 丢失 了 其 他 的 演员 和 导演 信息 。 <<< 
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在 开放 世界 假设 下 ， 当 查询 不 包含 比较 谓词 时 ， 由 MiniCon 和 逆 规 则 算法 所 生成 的 合 
取 查 询 的 并 集 确保 : 给 定 一 个 合 取 视图 集合 ， 计 算出 合 取 查询 的 所 有 确定 答案 。 下 面 的 定 
理 表明 ， 逆 规则 算法 产生 了 所 有 的 确定 答案 。 

定理 2. 10 令 0 是 合 取 查询 ,= 也，.…， V, 是 合 取 查 询 集 ， 其 中 0 和 ?7 都 不 包含 比 
较 原子 和 否定 。 令 0' 是 逆 规 则 算法 对 0Q fo V ORR, AVPR HPE, e, 
Un, DERM 0' 将 会 产生 0 的 关于 7 和 了 的 所 有 确定 答案 。 

证 明 : DRA SPR» 一 致 的 数据 库 集 合 。 为 了 证 明定 理 ， 需 要 说 明 ， 如 果 对 任意 的 
DeD, ieQ(D)， 则 1 可 以 通过 计算 0' 对 于 5 的 值 产生 。 

计算 0' 在 zz 上 的 值 可 分 为 两 个 步骤 。 首 先 ， 对 5 计算 所 有 的 逆 规 则 ， 生 成 一 个 规范 数 
据 库 D'。 然 后 ,在 D' 上 计算 0 的 值 。 该 证 明基 于 ， 如 果 7 是 一 个 没有 函数 项 的 常数 元 组 ， 
且 te 0Q(D')， 则 对 于 任意 的 DeD 有 te0(D)。 

假设 aev， 其 中 V, eM: 

V(X) :- p1(X1), .-., Pm(Xm) 
且 V 中 的 存在 变 元 是 Yl，…，Y,。 如 果 De DP， 那么 一 定 存在 常量 b，…，b,， 以 及 将 X 
映射 到 a 和 将 Y ，…，Y, 映射 到 5,，…，6b; 的 映射 W, 使 得 p;(Y(X;)) eD, 1<i<n, 

除了 用 f(a)，…, faala) RE b, o, b 外 ,在 zz 上 计算 逆 规 则 准确 地 生成 这 些 
元 组 。 事 实 上 ， 对 于 某 些 aev,，D' 中 的 所 有 元 组 都 是 通过 这 种 方式 生成 的 ， 所 以 在 D' 中 
不 存在 额外 的 不 被 某 些 w(5) 获得 的 元 组 。 

因此 ， 可 以 用 如 下 方法 描述 D 中 的 数据 库 。 每 个 De D 可 以 从 D' 中 创建 ,通过 将 D' 中 
的 函数 项 映射 到 常数 (可 能 使 两 个 不 同 的 函数 项 相等 ) 并 增加 更 多 元 组 。 换 句 话 说 ， 每 个 
数据 库 De D， 存 在 一 个 同 态 ,使 得 (D) DD’. 

因此 不 难看 出 ， 如 果 te 0(D') ， 因 为 在 D' 中 相等 的 常数 对 在 D 中 也 一 定 相 等 ， 所 以 
对 于 任意 的 DeD, ie 0(D)。 = 

定理 2. 10 可 以 用 来 说 明 ， 在 相同 条 件 下 ，MiniCon 算法 产生 了 所 有 的 确定 答案 。 我 们 
留 给 读者 来 证 明 ， 任 何 逆 规 则 算法 所 产生 的 答案 也 可 以 由 MiniCon 算法 产生 ， 因 此 它 也 可 
以 产生 所 有 的 确定 答案 。 

推论 2.1 令 @ 是 一 个 合 取 查 询 , 7 = 网 ，…， 了 内 是 一 组 合 取 查 询 。 逆 规则 和 Mini- 
Con 算法 产生 了 用 Vy 构成 的 0 的 合 取 查询 重 写 的 最 大 包含 并 集 。 
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在 封闭 世界 假设 下 ， 找 到 所 有 确定 答案 被 证 明 是 计算 上 更 难 的 。 以 下 定理 表明 ， 发 现 
所 有 的 确定 答案 是 关于 数据 大 小 的 co-NP-hard 问题 。 因 此 ， 我 们 所 考虑 的 用 于 重 写 的 查询 
语言 都 不 会 产生 所 有 的 确定 答案 。 

定理 2. 11 令 Q 是 查询 ，V 是 视图 定义 集合 。 给 定 一 个 视图 实例 ， 在 封闭 世界 假设 下 
判断 一 个 元 组 是 否 为 确定 答案 是 一 个 co- NP-hard 问题 。 

证 明 要 点 ”该 定理 可 以 归 约 为 3 着 色 问 题 来 证 明 。 令 G=(V, E) 是 一 张 任意 的 图 。 
考虑 视图 定义 


Vi(X)  :-color(X,Y) 
v2(Y)  :- color(X,Y) 
v3(X,Y) :- edge(X,Y) 


HZ Io) =V, I(v,) ={red, green, blue}, /(v,) = 的 一 个 实例 I。 可 以 看 到 ， 在 封 
闭 世 界 假 设 下 ， 查 询 

qQ :- edge(X,Y), color(X,Z), color(Y,Z) 
有 确定 答案 当 且 仅 当 图 C 不 能 3 着 色 。 由 于 判断 一 个 图 是 否 是 3 着 色 的 是 一 个 NP 完全 问 
题 ， 从 而 定理 得 证 。 请 注意 ，g 的 查询 重 数 为 0， 因 此 它 具 有 确定 答案 当 且 仅 当 对 于 任何 
数据 库 至 少 存在 一 个 满足 该 主体 的 代 换 。 ” 
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当 查 询 和 视图 包含 比较 谓词 时 ， 查 找 确定 答案 或 最 大 包含 重 写 的 结果 会 难以 为 继 。 事 
实 上 ， 有 关 重 写 (定理 2.9) 大 小 限制 的 基本 结论 不 再 成 立 。 

难点 在 于 查询 中 包含 比较 谓词 。 以 下 定理 表明 ， 只 要 查询 包含 谓词 关 ， 则 找到 所 有 确 
定 答案 是 co- NP 完全 问题 。 

定理 2. 12 令 Q 是 查询 ，V 是 视图 定义 集 ， 所 有 都 是 合 取 查询 ， 但 0 可 能 包含 谓 
词 关 。 给 定 一 个 视图 实例 ， 在 开放 世界 假设 下 ， 确 定 一 个 元 组 是 否 为 确定 答案 是 co-NP- 
hard 问题 。 

证 明 要 点 ”该 问题 可 以 归 约 为 CNF 公式 可 满足 性 测试 问题 加 以 证 明 。 令 亚 是 一 个 带 
有 变 元 x, ，…，x。 和 连接 词 c ，…，cw 的 CNF 公式 。 考 虑 以 下 合 取 视图 定义 及 其 相应 的 


视图 实例 : 
Vi(X,Y,2) :- p(X, Y,Z) 
v2 (X) :-T(X,Y) 
73(Y) :- p(X, Y,Z), r(X,Z) 


Koa) = {(i,7,1)} |x, 出 现在 c 中 | U (i,j,0) | x, 不 出 现在 中 | 

Io) = {(1),=,(n)] 

I(v,) = {(1), =, (m)] 

最 后 ， 考 虑 下 面 的 查询 : 

qO :-r(X,Y), r(X, Y), Y £ Y' 
在 开放 世界 假设 下 ，q 具有 一 个 确定 答案 ， 当 且 仅 当 公式 VEREK BERW 
足 性 问题 是 NP 完全 的 ， 从 而 定理 得 证 。 a 

幸运 的 是 ， 在 以 下 两 种 情况 下 ， 我 们 介绍 的 算法 仍然 能 够 产生 最 大 包含 重 写 和 所 有 的 
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确定 答案 : 

。 如 果 查 询 不 包含 比较 谓词 〈 但 视图 可 以 包含 ) ， 并 且 

。 如 果 查 询 中 所 有 的 比较 谓词 是 半 区 间 (semi-interval) 比较 。 
有 关 证 明 留 给 读者 作为 练习 。 


参考 文献 注释 


多 年 来 ， 查 询 包含 一 直 是 一 个 活跃 的 研究 领域 ， 从 Chandra 和 Merlin[ 114] 开 始 ， 他 们 
证 明了 查询 包含 和 等 价 对 于 合 取 查询 是 NP 完全 的 。Sagiv 和 Yannakakis 最 先 考虑 带 有 并 和 
否定 的 查询 [502] Rarajaman 和 Chekuri[ 130] 说 明了 在 一 些 情况 下 ， 查 询 包 含 检测 可 以 在 
关于 查询 大 小 的 多 项 式 时 间 内 完成 。Saraiya 说 明 ， 当 谓词 在 合 取 查询 中 出 现 不 超过 两 次 
时 ， 可 以 在 多 项 式 时 间 内 检测 查询 包含 [505 | 。 

Klug[ 347 ] (确定 了 上 限 ) 和 van der Meyden[ 557] (MET FR) 首先 考虑 了 带 有 比较 
谓词 的 合 取 查询 的 包含 。Afrati 等 人 [16] 为 检测 带 有 比较 谓词 的 包含 提出 了 更 高 效 的 算法 。 
在 文献 [12] 中 ， 作 者 对 查询 包含 以 及 利用 带 有 算术 比较 的 视图 应 答 查 询 ， 给 出 了 一 个 彻底 
的 解决 方案 。 在 2. 3. 4 节 中 讲述 的 算法 ， 以 及 2.3.5 节 中 带 有 否定 子 目标 的 查询 包含 算法 
来 自 于 Levy 和 Sagiv 的 工作 [382 ] Benedikt 和 Gottlob 的 工作 [64] 表 明 ， 非 递归 的 数据 记 
录 的 查询 包含 对 于 co- NEXPTIME 是 完全 的 。 包 语义 的 查询 包含 ， 由 Chaudhuri 和 Vardi 
[127] 首 先 提 出 ， 然 后 [320，332 ] 也 考虑 了 该 问题 。Cohen[ 142] 综述 了 带 有 分 组 和 聚集 的 
查询 包含 算法 。Green[ 267 | 研究 了 对 于 标注 关系 (annotated relations) 上 的 查询 ， 同 时 也 
涵盖 包 语 义 上 查询 的 包含 结果 。 

基于 视图 的 查询 应 答 已 经 在 数据 集成 、 查 询 优化 〈 例 如 ，[13，63，125，259，588] ) 、 
物理 数据 独立 性 (例如 ，[551，586]) 维护 等 领域 中 进行 研究 。Halevy[284] 介 绍 了 利用 
视图 回答 查询 的 主要 技术 。 在 2. 4. 3 节 中 提 到 的 重 写 长 度 的 结论 源 于 Levy 等 人 [398] ， 桶 
算法 是 对 [381] 中 算法 的 改进 。MiniCon 算法 [482] 和 SVB 算法 [439] 也 是 完整 且 更 高 效 的 
算法 。 在 [12] 中 ， 作 者 在 面 对 查 询 和 视图 中 带 有 比较 谓词 的 问题 之 前 ， 讨 论 了 利用 视图 回 
答 查 询 的 微妙 之 处 ， 并 且说 明了 桶 算法 在 存在 比较 谓词 时 结果 可 能 不 完整 的 原因 。 [349] 
的 作者 描述 了 相 比 于 MiniCon 算法 的 一 个 显著 的 加 速 。 道 规则 的 算法 来 自 Duschka 
Genesereth[ 198 ] 。 文 献 [480 ] 介绍 了 一 个 基于 Chase 算法 的 利用 视图 回答 查询 的 方法 。 有 
多 项 工作 (例如 ，[108]) 考虑 根据 描述 逻辑 来 处 理 视图 查询 。Abiteboul 和 Duschka[ 6 ] 提 
出 了 确定 答案 ， 以 及 我 们 所 描述 的 基本 复杂 度 的 结论 。Libkin[389 ] 给 出 了 一 个 定义 数据 
库 中 不 完整 信息 的 总 体 框架 ， 从 中 得 出 了 几 个 关于 关系 数据 和 XML 数据 的 确定 答案 的 
结果 。 
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数据 源 描述 





数据 集成 系统 在 一 些 数据 集 上 处 理 一 个 查询 时 ， 系 统 必 须知 道 哪 些 数据 源 是 可 用 的 、 
每 个 数据 源 中 存放 的 是 什么 数据 以 及 每 个 数据 源 如 何 访问 等 。 在 数据 集成 系统 中 ， 数 据 源 
描述 用 于 对 有 关 信 息 进 行 编码 。 在 这 一 章 中 ， 我们 将 学 习 数 据 源 描述 的 不 同 组 成 部 分 ， 并 
分 析 在 设计 数据 源 描述 的 形式 时 引入 的 一 些 权衡 策略 。 

在 讨论 本 章 内 容 之 前 ， 我 们 首先 考虑 数据 集成 系统 的 体系 结构 (如 图 3-1 所 示 )。 当 
一 个 用 户 (或 者 一 个 应 用 程序 ) 使 用 中 介 模 式 中 的 关系 和 属性 向 数据 集成 系统 提交 一 个 查 
询 后 ， 系 统 把 这 个 查询 重 构 成 一 个 数据 源 上 的 查询 ， 重 构 的 结果 称 为 逻辑 查询 计划 。 之 后 
该 逻辑 查询 计划 会 被 优化 以 便 高 效 地 运行 。 本 章 将 介绍 数据 源 描述 是 如 何 表 达 的 ， 以 及 系 
统 如 何 使 用 它们 将 用 户 查 询 重 构成 逻辑 查询 计划 。 


中 介 模 式 上 的 查询 





Rs 
源 


源 
图 3-1 数据 集成 系统 中 的 查询 处 理 。 本 章 主要 关注 重 写 步骤 ， 在 虚线 框 中 高 亮 显示 部 分 


源 源 


3. 1 概述 和 必要 条 件 
在 开始 讨论 数据 源 描 述 之 前 ， 需 要 强调 这 些 描 述 信息 试图 达到 的 目标 ， 以 及 概括 一 个 
数据 源 描述 形式 的 基本 必要 条 件 。 
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为 了 理解 数据 源 描 述 的 要 求 ， 我 们 使 用 一 个 包含 中 介 模 式 和 数据 源 的 应 用 场景 (如 
图 3-2 所 示 ) 。 注 意 ， 第 一 个 数据 源 包 含 4 张 表 ， 其 余 的 每 个 数据 源 包含 单独 一 张 表 。 在 
数据 源 中 我 们 用 数据 源 名 加 上 关系 名 来 引用 一 个 关系 (例如 ，S1. Movie), 


中 介 模 式 : 
Movie(title, director, year, genre) 
Actors(title, name) 
Plays(movie, location, startTime) 
Reviews(title, rating, description) 
数据 源 : 
S1: 
Movie(MID, title) 
Actor(AID, firstName, lastName, nationality, yearOfBirth) 
ActorPlays(AID, MID) 
MovieDetail(MID, director, genre, year) 


Cinemas(place, movie, start) 
NYCCinemas(name, title, startTime) 
Reviews(title, date, grade, review) 


MovieGenres(title, genre) 





MovieDirectors(title, dir) 





MovieYears(title, year) 


图 3-2 ”中介 模式 和 数据 源 的 例子 


一 个 数据 源 描述 需要 包含 几 部 分 信息 。 首 先是 模式 映射 模式 映射 是 数据 源 描述 的 主要 
组 成 部 分 ， 它 描述 了 数据 源 中 存放 有 哪些 数据 ， 以 及 源 模 式 中 使 用 的 信息 与 中 介 模 式 中 使 用 
的 信息 如 何 关 联 。 模 式 映射 需要 能 够 处 理 数据 源 模式 (schemata) 和 中 介 模 式 之 间 的 分 歧 。 

。 关系 和 属性 名 称 : 中 介 模 式 中 的 关系 和 属性 名 称 与 数据 源 中 的 名 称 往往 是 不 同 的 ， 
即使 它们 代表 相同 的 概念 。 例 如 ， 在 中 介 模 式 中 属性 description 表示 评论 的 文本 
描述 ， 它 与 数据 源 S4 的 属性 review 是 一 样 的 。 同 样 ， 如 果 在 中 介 模 式 和 源 中 使 
用 了 相同 的 关系 或 属性 名 ， 并 不 意味 着 它们 代表 相同 的 事物 。 例 如 ， 属 性 name 
同时 出 现在 中 介 模 式 的 关系 Actors 和 S3 中 ， 但 一 个 代表 演员 名 字 ， 而 另 一 个 代 
表 电 影院 的 名 字 。 

。 表格 组 织 : 中 介 模 式 和 数据 源 的 数据 表格 组 织 可 能 不 同 。 例 如 ， 在 中 介 模 式 中 ， 
关系 Actor 存储 演员 名 和 电影 名 之 间 的 关系 。 相 反 ， 在 数据 源 S1 中 ,演员 用 ID 
标识 ， 他 们 的 数据 存在 关系 Actor 中 ， 而 演员 和 电影 的 关系 存储 在 关系 Actor- 
Plays 中 。 因 此 ， 模 式 映 射 需要 能 够 指明 在 数据 源 中 两 个 表 的 连接 与 中 介 模 式 中 的 
某 个 关系 相对 应 ， 反 之 亦 然 。 

。 粒度 级 别 : 两 个 模式 的 覆盖 面 和 粒度 级 别 可 能 会 有 所 不 同 。 例 如 ， 数 据 源 S1 在 对 
演员 进行 建 模 时 就 比 中 介 模 式 要 更 详细 。 数 据 源 中 除了 保存 演员 的 名 字 外 ， 还 保 
存 他 们 的 出 生年 份 和 国籍 。 
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粒度 级 别 有 所 不 同 的 一 个 主要 原因 是 模式 是 为 不 同 的 目的 而 设计 的 。 例 如 ， 
中 介 模 式 可 能 是 为 一 个 在 线 商店 的 后 台 服 务 单独 设计 的 ， 而 S1 的 模式 是 为 了 了 解 
电影 的 详细 细节 而 设计 的 。 
。 数据 级 别 的 差异 : 为 了 描述 数据 ， 模 式 可 能 会 指定 一 些 不 同 的 约定 。 举 一 个 简单 
的 例子 ， 数 值 的 刻度 可 能 有 所 不 同 ，( 例 如 ，GPA 可 能 会 用 字母 表示 ， 也 可 能 用 数 
字 表 示 ) 。 其 他 情况 下 ， 人 名 或 者 公司 名 可 能 会 有 不 同 的 写法 。 例 如 ,在 S1 中 ， 
演员 名 被 分 成 两 列 ， 而 在 中 介 模 式 中 全 名 放 在 一 列 中 。 
总 之 ， 中 介 模 式 和 源 模式 (或 者 任意 两 个 模式 ) 之 间 的 差别 统称 为 语义 异 构 。 如 何 解 
决 语义 异 构 是 数据 集成 中 的 关键 挑战 之 一 。 我 们 将 在 3.2 节 中 讨论 模式 映射 。 
除了 模式 映射 外 ， 数 据 源 描述 还 说 明了 数据 集成 系统 如 何 进行 优化 查询 以 及 如 何 避 免 
非法 访问 。 特 别 是 以 下 常见 的 两 点 。 


访问 模式 限制 


数据 源 可 能 会 支持 不 同 的 访问 模式 。 在 最 好 的 情况 下 ， 一 个 数据 源 是 一 个 全 面 的 数据 
库 系 统 ， 我 们 可 以 发 送 任何 SQL 查询 。 然 而 ， 很 多 数据 源 都 是 有 限制 的 。 比 如 ， 一 个 接口 
是 Web 表格 的 数据 源 就 限制 了 可 能 的 访问 模式 。 为 了 从 源 中 得 到 元 组 ， 数 据 集成 系统 需 
要 提供 一 些 合法 的 输入 参数 集合 。 我 们 将 在 3. 3 节 中 讨论 访问 模式 的 限制 ， 在 第 8 章 中 介 
绍 如 何 利用 数据 源 的 处 理 能 力 。 


数据 源 的 完备 性 

从 所 包含 的 内 容 方 面 来 了 解 一 个 数据 源 是 否 完备 是 非常 重要 的 。 如 果 已 知 一 个 数据 源 
是 完备 的 ， 那么 数据 集成 系统 就 可 以 节省 访问 其 他 有 重 芭 数据 的 数据 源 时 间 。 例 如 ， 如 果 
已 知 S2. Cinema 包含 了 在 这 个 国家 中 所 有 电影 的 放映 时 间 ， 那 么 我 们 就 可 以 忽略 对 S3 
和 S4 的 很 多 查询 。 在 有 些 情况 下 ， 数 据 源 在 其 内 容 的 一 个 子 集 上 是 完备 的 。 例 如 ， 我 们 
也 许 知 道 S2 在 New York 和 San Francisco 的 电影 信息 上 是 完备 的 。 给 定 一 个 部 分 完备 的 
源 ， 我 们 想 知道 查询 的 结果 能 和 否 保证 完备 性 。 之 后 我 们 会 看 到 ， 数 据 源 的 完备 性 其 实 是 
2.4 节 提 到 的 封闭 世界 假设 。 我 们 在 3. 5 节 中 讨论 数据 集成 如 何 处 理 完 备 性 。 


3.2 模式 映射 语言 


形式 上 ， 模 式 映 射 是 描述 模式 之 间 关 系 的 表达 式 集 合 。 这 里 的 模式 映射 描述 了 中 介 模 
式 和 源 模式 之 间 的 关系 。 当 一 个 查询 是 针对 中 介 模 式 进 行 时 ， 我 们 会 使 用 这 些 映射 把 它 重 
写成 对 数据 源 的 查询 。 重 写 的 结果 是 一 个 逻辑 查询 计划 。 

模式 映射 也 用 在 其 他 场景 中 。 在 数据 交换 和 数据 仓库 (在 第 10 章 中 讨论 ) 中 ,模式 
映射 表示 一 个 源 数据 库 与 一 个 目标 数据 库 之 间 的 关系 (通常 是 一 个 数据 仓库 ) 。 模 式 映 射 
也 可 能 用 来 描述 两 个 存储 数据 的 数据 库 之 间 的 关系 ,而且 这 样 的 模式 映射 的 目标 一 般 是 把 
两 个 数据 库 合 并 成 一 个 。 我 们 将 在 第 6 章 讨论 这 种 情况 。 


3.2.1 模式 映射 语言 规则 
本 章 中 我 们 使 用 查询 表达 式 作为 模式 映射 的 主要 表达 方式 ， 同 时 利用 第 2 章 描述 的 算 
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法 来 进行 查询 重 写 。 在 描述 中 ， 用 6 表示 中 介 模 式 ， 用 $5 ，…，5, 表示 源 模式 。 


PGT X 

模式 映射 的 语义 是 这 样 来 指定 的 ， 通 过 定义 中 介 模 式 的 哪个 实例 与 数据 源 的 给 定 实例 
是 一 致 的 。 具 体 来 讲 ， 一 个 语义 映射 M 定义 了 一 个 关系 Mp: 

I(G) x I(S,) x + x I(S,) 

Htp, (G) 表示 中 介 模 式 的 可 能 实例 ，7(S ) ++, 1CS,) 表示 相应 源 关系 S, e, Sn 
的 可 能 实例 。 如 果 (g, si, s Ss) eM， 那 么 当 源 关系 实例 是 s; ，…，s, 时 ，g 就 是 中 
介 模 式 的 一 个 可 能 实例 。 中 介 模 式 上 查询 的 语义 就 是 基于 关系 Mi 的 。 

定义 3.1 (确定 结果 ) M 是 中 介 模 式 G 和 源 模式 S|，…，5, 之 间 的 一 个 模式 映射 ， 
MM 定义 了 在 1(G) x1(S1) x= xI(S,) 上 的 关系 Mn。 

令 0 是 G 上 的 一 个 查询 ，s|，…，s, 是 源 关 系 的 实例 。 如 果 对 于 6 的 每 一 个 实例 g， 都 
AteQ(g) L (g, s, =, s) eMh， 那 么 1 就 是 0 关于 用 和 s|，…，s, 的 一 个 确定 结果 。 


BRE it ky 
为 了 获得 确定 结果 ， 数 据 集成 系统 会 生成 一 个 逻辑 查询 计划 作为 重 写 结 果 。 逮 辑 查 询 
计划 是 一 个 涉及 源 关系 的 查询 表达 式 。 之 后 我 们 会 发 现 ， 并 不 总 能 生成 一 个 查询 计划 获得 
所 有 的 确定 结果 。 因 此 ， 我 们 将 主要 讨论 两 个 不 同 的 问题 : 寻找 最 优 的 逻辑 查询 计划 和 和 寻 
找 所 有 的 确定 结果 。 
当 我 们 讨论 不 同 的 模式 映射 语言 时 ， 我 们 要 明确 该 语言 应 该 具备 以 下 重要 特性 : 
。 灵活 性 : 在 已 知 不 同 模式 之 间 重 要 区 别 的 情况 下 ， 模 式 映射 语言 应 该 非常 灵活 。 
也 就 是 说 ， 该 语言 应 该 能 够 表达 模式 之 间 的 各 种 关系 。 

。 高 效 重 写 : 由 于 我 们 的 目标 是 利用 模式 映射 来 重 写 查询 ， 所 以 我 们 应 该 设计 出 易 
于 理解 并 且 高 效 的 重 写 算法 ， 该 要 求 与 表达 能 力 的 要 求 不 同 ， 因 为 表达 力 越 强 的 
语言 越 难以 理解 。 

e 对 新 数据 源 的 可 扩展 性 : 对 于 一 个 实际 可 用 的 形式 来 说 ， 需 要 能 够 非常 容易 地 增 

加 和 删除 数据 源 。 如 果 增 加 一 个 新 的 数据 源 需 要 检查 其 他 所 有 的 数据 源 ， 那 么 当 
数据 源 规模 非常 大 时 ， 该 系统 就 会 很 难 管理 。 

我 们 讨论 3 类 模式 映射 : 全 局 视图 ( Global- as- View) (3.2.2 节 )、 局 部 视图 
(Local-as-View) (3.2.3 节 )、 全 局 -局 部 视图 (Global-and- Local-as- View) (3.2.4 4), 
全 局 - 局 部 视图 结合 了 前 两 种 的 特征 。 最 后 讨论 元 组 生成 依赖 ( tuple- generating dependen- 
cies) (3.2.5 节 ) ， 它 使 用 一 种 不 同 的 形式 ， 但 与 全 局 - 局 部 视图 具有 相等 的 表达 力 。 由 
于 历史 原因 ， 该 形式 化 名 字 留 有 一 定 的 余地 进行 进一步 解释 。 第 5 章 将 主要 介绍 如 何 构建 
模式 映射 。 


3.2.2 全 局 视图 


我 们 首先 考虑 全 局 视图 (Global-as- View, GAV), GAV 使 用 了 一 种 非常 直观 的 方式 来 
指定 模式 映射 : GAV 把 中 介 模 式 定义 为 数据 源 上 的 视图 集合 。 这 里 中 介 模 式 通常 作为 一 
个 全 局 模式 。 
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EAA 
GAV 源 描述 的 语法 定义 如 下 。 
定义 3.2 (GAYV 模式 映射 ) 假定 G 是 一 个 中 介 模 式 ，S=|5,，…，5,| 是 nn 个 数据 
源 模式 。 一 个 全 局 视图 模式 映射 MM 是 一 个 满足 G(XX) 20(5) A G(X) =Q(S) 的 表达 式 
集合 ， 其 中 : 


© 6 是 G 中 的 一 个 关系 ， 并 且 最 多 出 现在 用 的 一 个 表达 式 中 ， 并 且 

© 0(S) 是 $ 中 关系 上 的 一 个 查询 。 

带 有 了 的 表达 式 做 了 开放 世界 假设 。 即 ， 假 定数 据 源 和 为 中 介 模 式 中 的 关系 计算 得 到 
的 实例 都 是 不 完备 的 。 带 有 = 的 表达 式 做 了 封闭 世界 假设 ， 即 为 中 介 模 式 中 的 关系 计算 得 
到 的 实例 是 完备 的 。 在 3. 5 节 中 我 们 介绍 如 何 给 出 数据 源 完备 性 的 更 好 定义 。 


例 3.1 下 面 是 我 们 的 例子 中 部 分 数据 源 的 一 个 GAV 模式 映射 。 为 了 方便 阅读 ， 在 
说 明 GAV 模式 映射 时 ， 暂 时 不 显示 这 些 数 据 源 上 的 查询 头 部 0(5)， 因 为 它 和 关系 G 是 
一 样 的 。 由 于 这 一 点 ， 我 们 用 多 表达 式 来 表示 并 集 查 询 (比如 ， 下 面 的 前 两 个 声明 ) 。 

Movie(title, director, year, genre) > S1.Movie(MID, title), 

$1.MovieDetail(MID, director, genre, year) 
Movie(title, director, year, genre) > S5.MovieGenres(title, genre), 
$6.MovieDirectors(title, director), 
S7.MovieYears(title, year) 
Plays(movie, location, startTime) > S2.Cinemas(location, movie, startTime) 
Plays(movie, location, startTime) > S3.NYCCinemas(location, movie, startTime) 


第 一 个 表达 式 表明 如 何 通过 连接 S1 中 的 关系 获得 关系 Movie 的 元 组 。 第 二 个 表达 式 
通过 连接 S5、S6 和 S7 中 的 数据 获得 关系 Movie 的 元 组 。 因 此 ， 为 关系 Movie 计算 的 元 
组 就 是 前 两 个 表达 式 的 并 集 。 同 时 需要 说 明 的 是 ， 第 二 个 表达 式 要 求知 道 一 部 电影 的 导 
演 、 类 型 和 年 份 。 如 果 缺 少 了 其 中 一 个 属性 ， 我 们 就 得 不 到 关系 Movie 中 的 关于 电影 的 
元 组 。 第 三 个 和 第 四 个 表达 式 通过 S2 和 S3 的 并 集 获 得 关系 Plays 的 元 组 。 <<< 


下 面 的 定义 描述 了 由 一 个 CAV 模式 映射 M 得 来 的 关系 Ma ， 从 而 定义 了 它 的 语义 。 

定义 3.3 (GAV 语义 ) MRM=M,, =, MX CHS={S,, =, S) 之 间 的 模式 
At, SPM, 的 形式 为 G(X) DO(S) 或 者 G(X) =Q(S). 

Ag 是 中 介 模 式 G 的 一 个 实例 ，g; 是 g 中 的 关系 G, 的 一 个 元 组 集合 。 令 了 = 
s Æ S, e, S 的 实例 。 如 果 对 于 每 个 1i<1， 下 面 的 两 点 成 立 ， 则 实例 的 元 
Sis 5%) 在 Ma 中: 

© WRM 是 一 个 = 表达 式 ， 那 么 g; 等 于 在 5 上 计算 0; HAR, 

© RM, 是 一 个 了 表达 式 ， 那 么 g; 是 在 5 上 计算 0, 的 结果 的 超 集 。 


S ae 


19 
组 (g, 


GAV Pipes 

GAV 的 主要 优势 是 它 的 概念 简单 。 中 介 模 式 只 是 数据 源 上 的 一 个 视图 。 为 了 重 写 中 
介 模 式 上 的 一 个 查询 ， 我 们 只 需要 使 用 视图 的 定义 (2.2 节 ) 展开 这 个 查询 。 此 外 ， 由 展 
开 获 得 的 重 写 能 够 保证 找到 所 有 的 确定 结果 。 因 此 ， 下 面 的 定理 总 结 了 在 CAV 中 重 写 和 
查询 求解 的 复杂 性 。 
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定理 3.1 MEM=M,, =, MM 是 一 个 G 和 5S=|5,，…，5,| 之 间 的 模式 映射 ， 其 
中 M, WERA GX) 0S) 或 者 Ci(X) =Q(S)，@ 是 G 上 的 一 个 查询 。 

如 果 Q 40M PH 0; 是 合 取 查询 或 者 合 取 查 询 的 并 集 ， 那 么 即使 有 比较 和 否定 原子 操 
作 ， 找 到 0 的 全 部 确定 结果 也 是 数据 源 大 小 的 多 项 式 时 间 (PTIME) 问题 ， 同 时 重 写 的 复 
杂 度 是 查询 和 源 描述 大 小 的 多 项 式 时 间 问 题 。 


例 3.2 假设 有 如 下 针对 中 介 模 式 的 查询 ， 查 询 晚上 八 点 后 开始 的 喜剧 : 


Q(title, location, st) :- Movie(title, director, year, “comedy”), 
Plays(title, location, st), st > 8pm 


用 例 3. 1 中 的 数据 源 描述 改写 Q 将 会 产生 如 下 4 个 逻辑 查询 计划 : 
Q'(title, location, st) :- S1.Movie(MID, title), 
$1.MovieDetail(MID, director, “comedy” year), 
$2.Cinemas(location, movie, st), st > 8pm 
Q'‘(title, location, st) :- §1.Movie(MID, title), 
$1.MovieDetail(MID, director, “comedy” year), 
$3.NYCCinemas(location, title, st), st > 8pm 
Q‘(title, location, st) :- S5.MovieGenres(title, genre), S6.MovieDirectors(title, director), 
$7.MovieYears(title, year), $2.Cinemas(location, movie, st), 
st > 8pm 
Q'(title, location, st) :- S5.MovieGenres(title, genre), S6.MovieDirectors(title, director), 
S7.MovieYears(title, year), S53.NYCCinemas(location, title, st), 
st > 8pm 


对 于 上 面 的 重 写 我 们 需要 注意 两 点 。 首 先 ， 该 重 写 可 能 不 是 处 理 该 查询 的 最 高 效 方 
式 。 例 如 ， 该 例子 中 ， 一 个 更 好 的 方式 可 能 是 使 用 公共 子 表达 式 (BI, Movie 和 
Plays) 来 减少 处 理 该 查询 所 涉及 的 连接 次 数 。 我 们 将 在 第 8 章 中 讨论 数据 集成 中 的 查 
询 优 化 。 

其 次 ， 注 意 在 最 后 两 个 重 写 中 ，S6. MovieDirectors 和 S7. MovieYears 的 子 任务 似 
乎 是 元 余 的 ， 因 为 我 们 真正 从 关系 Movies 中 想 要 得 到 的 是 电影 的 类 型 。 然 而 ， 这 些 子 任 
务 是 必须 的 ， 因 为 中 介 模 式 强制 每 个 电影 都 要 有 一 个 已 知 的 导演 和 年 份 。 <<< 


讨论 

从 模型 的 角度 出 发 ，GAV 源 描 述 直 接 指定 了 怎么 从 源 的 元 组 计算 中 介 模 式 的 元 组 。 
在 例 3. 2 中 ， 当 我 们 不 能 给 电影 指定 未 知 的 导演 和 年 份 时 ， 就 已 经 看 到 CAV 的 一 个 局 限 
性 了 。 下 面 是 体现 从 数据 源 到 中 介 模 式 转换 局 限 性 的 一 个 更 加 极端 的 例子 。 


例 3. 3 假设 有 一 个 数据 源 S8 ， 它 存储 了 电影 中 合作 的 《演员 ， 导 演 ) 对 。 在 CAV 
中 对 这 个 源 进行 建 模 的 唯一 方式 是 不 受 限 制 地 使 用 Null 的 如 下 两 个 描述 。 


Actors(NULL, actor) > S8(actor, director) 
Movie(NULL, director, NULL, NULL) > S8(actor, director) 


注意 ， 这 些 描述 主要 用 来 构建 中 介 模 式 的 元 组 ， 并 且 除 了 一 列 之 外 ， 元 组 的 其 他 所 有 
列 均 包含 NULL。 例 如 ， 如 果 源 S8 包含 元 组 | Keaton, Allen} 和 |Pacino，Coppo- 
lal ， 那 么 中 介 模 式 的 元 组 是 : 


Actors(NULL Keaton), Actors(NULL, Pacino) 
Movie(NULL, Allen, NULL, NULL), Movie(NULL, Coppola, NULL, NULL) 


现在 假设 有 如 下 重建 S8 的 查询 : 


Q(actor, director) :- Actors(title, actor), Movie(title, director, genre, year) 
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我 们 可 能 无 法 从 S8 中 恢复 元 组 ， 因 为 源 描述 丢失 了 演员 和 导演 之 间 的 关系 。 <<< 


GAV 的 一 个 重要 局 限 性 在 于 添加 或 删除 数据 源 需 要 很 大 的 代价 ， 并 且 还 需要 有 数据 
源 的 相关 知识 。 例 如 ,假设 我 们 发 现 一 个 只 包含 电影 导演 的 数据 源 (类 似 于 S56)， 为 了 更 
新 这 个 源 描述 ， 需 要 明确 指定 为 了 产生 Movie 的 元 组 ， 它 需要 和 哪些 源 进行 连接 。 因 此 ， 
需要 知道 所 有 提供 电影 年 份 和 电影 类 型 的 数据 源 (可 能 有 很 多 ) 。 大 体 上 ， 如 果 添 加 一 个 
新 的 数据 源 需要 了 解 系统 里 的 其 他 所 有 数据 源 ， 那 么 这 个 系统 不 太 可 能 扩展 到 大 量 的 数 


3.2.3 局 部 视图 


局 部 视图 (Local-as-View, LAV) 采取 了 和 GAV 完全 相反 的 方式 。LAYV 关注 于 尽 可 
能 准确 地 描述 每 个 数据 源 并 且 与 其 他 任何 数据 源 相 互 独立 ， 而 不 是 指定 怎么 样 去 计算 中 介 
模式 中 的 元 组 。 


TE Ali SL 
如 名 称 所 示 ，LAV 表达 式 把 数据 源 描述 成 中 介 模 式 上 的 视图 。 
定义 3. 4 (LAV 模式 映射 ) RR CRPIMRA, S={S,, +, S| 是 nn 个 数据 源 模 


式 。 一 个 局 部 视图 模式 映射 M 是 形式 为 8(X)ECO(G) 或 者 Si(X) =0,(6) 的 一 个 表达 
ARS, HP: 

。 0, 是 一 个 中 介 模 式 G 上 的 查询 ， 并 且 

。 5, 是 一 个 源 关系 并 且 它 最 多 出 现在 M 的 一 个 表达 式 中 。 

和 GAV 一 样 ， 带 有 EC 的 LAV 表达 式 是 在 开放 世界 假设 前 提 下 ， 带 有 = 的 表达 式 是 在 封闭 
世界 假设 前 提 下 。 然 而 ，LAYV 描述 认为 在 数据 源 上 是 完备 的 ， 而 在 中 介 模 式 上 不 是 完备 的 。 


例 3.4 在 LAV F, 源 S5 ~ S7 将 会 简单 地 表示 为 中 介 模 式 中 关系 Movie 上 的 投影 
查询 。 同 样 ， 为 了 方便 描述 ， 这 里 也 省 略 了 Q; 查询 的 头 部 。 
S5.MovieGenres(title, genre) © Movie(title, director, year, genre) 


S6.MovieDirectors(title, dir) © Movie(title, director, year, genre) 
57.MovieYears(title, year) © Movie(title, director, year, genre) 


使 用 LAV 也 可 以 将 源 S8 表示 为 中 介 模 式 上 的 一 个 连接 : 

S8(actor, dir) © Movie(title, director, year, genre), Actors(title, actor) 

此 外 ， 也 可 以 表示 数据 源 内 容 上 的 约束 。 例 如 ， 可 以 描述 包含 1970 年 之 后 出 品 的 全 
部 喜剧 电影 的 数据 源 ， 如 下 所 示 : 


S9(title, year, “comedy”) © Movie(title, director, year, “comedy”), year > 1970 <<< 


和 GAV 一样 ，LAYV 模式 映射 的 语义 可 以 通过 指定 由 M 定义 的 关系 Ma 来 定义 。 


定义 3.5 (LAV 语义 ) 假设 NM=M，…, MÆG#æS=|S,, =, S} 之 间 的 一 个 
LAV 模式 映射 ， 其 中 M, 的 形式 是 S:(X) CQ,(G) 或 者 S,(X) =0,(6). 
假设 g 是 中 介 模 式 G 的 一 个 实例 ，5=s1，…，s, Æ S, o, S, 相应 的 实例 。 那 


么 对 于 每 一 个 1<i<1， 如 果 下 面 的 条 件 成 立 ， 则 实例 的 元 组 (g,5,, , s,) 在 
Mp P: 


3] 
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© WRM, 是 一 个 = 表达 式 ， 那 么 在 g 上 计算 O 的 结果 等 于 si 
© 如 果 MM; 是 一 个 C 表 达 式 ， 那 么 在 g 上 计算 0; 的 结果 是 si 的 一 个 超 集 。 


LAV #9 
LAV 的 主要 优势 是 数据 源 都 被 单独 描述 ， 并 且 系 统 负责 找到 组 合 来 自 不 同 数据 源 数 据 
的 方法 。 因 此 ,设计 者 可 以 更 简便 地 添加 和 删除 数据 源 。 


例 3.5 考虑 查询 在 1960 年 或 之 后 出 品 的 喜剧 ， 如 下 所 示 : 


Q(title) :- Movie(title, director, year, “comedy”), year > 1960 

使 用 源 S5 ~ S7 ， 我 们 将 从 LAV 源 描述 中 生成 如 下 的 重 写 : 

Q'(title) :- S5.MovieGenres(title, “comedy”), S7.MovieYears(title, year), year > 1960 

注意 ,与 CAV 不 同 ， 这 里 的 重 写 不 需要 与 56 中 的 关系 MovieDirectors 进行 连接 。 
使 用 源 S9 ， 我 们 也 可 以 生成 如 下 的 重 写 

Q'(title) :- S9(title, year, “comedy”) 

注意 ， 这 里 的 重 写 不 需要 在 年 份 上 采用 谓词 ， 因 为 S9 只 包含 1970 年 以 后 出 品 的 
电影 。 <<< 


当然 ， 为 了 满足 灵活 性 ， 需 要 开发 更 多 复杂 的 查询 重 写 算法 。 幸 运 的 是 ， 基 于 视图 的 
查询 应 答 (2. 4 节 ) 为 我 们 提供 了 一 个 在 LAV 中 进行 查询 重 写 的 框架 。 

下 面 的 内 容 可 以 帮助 我 们 理解 为 什么 基于 视图 的 查询 应 答 技术 适用 于 这 种 情况 。 中 介 
模式 代表 了 元 组 未 知 的 一 个 数据 库 。LAYV 中 的 数据 源 是 用 中 介 模 式 的 视图 表达 式 来 描述 
的 。 例 如 ，S8 被 描述 成 一 个 中 介 模 式 上 的 连接 。 因 此 ， 为 了 回答 中 介 模 式 上 的 查询 ， 需 
要 把 它 重 写成 一 个 在 已 知 视图 (例如 ， 数 据 源 ) 上 的 查询 。 不 同 于 传统 的 基于 视图 的 查询 
应 等 技术 设置 ， 这 里 的 原始 数据 库 ( 例 如， 中 介 模 式 ) 不 存储 任何 元 组 。 然 而 ， 这 对 查询 
重 写 算法 没有 任何 影响 。 

针对 上 述 问题 产生 了 很 多 关于 LAV 的 重 写 算 法 和 复杂 结果 ， 正 如 以 下 定理 中 总 结 的 。 
这 个 定理 的 证 明 是 第 2 章 中 的 一 个 推论 。 

定理 3.2 假设 M=M，…, MX GHS={S,, =, S} 之 间 的 LAV 模式 映射 ， 其 
中 M, 的 形式 是 8 (X)CO(G) 或 者 8(X) =0;(G)。0 是 G 上 的 合 取 查 询 。 

© HRM PH QO, 都 是 没有 比较 谓词 或 者 否定 词 的 合 取 查 询 ， 并 且 所 有 的 M, 都 是 CC 

表达 式 ， 那 么 所 有 确定 结果 都 可 以 在 数据 和 及 的 大 小 的 多 项 式 时 间 内 找到 。 

© 如 果 MM 中 的 0, 都 是 没有 比较 谓词 或 者 否定 词 的 合 取 查询 ， 并 且 MM 的 一 些 表 达 式 

是 = 表达 式 ， 那 么 找到 0 的 所 有 确定 结果 是 数据 大 小 的 co-NP-hard 问题 。 

© 如 果菜 些 0, 包含 比较 谓词 ， 那 么 找到 0 的 所 有 确定 结果 是 数据 大 小 的 co- NP-hard 

问题 。 

我 们 发 现 如 果 0 包含 并 集 或 者 否定 谓词 ， 那 么 找到 所 有 的 确定 结果 也 是 数据 大 小 的 
co-NP-hard 问题 。 

我 们 使 用 第 2 章 介绍 的 用 视图 集合 找到 一 个 查询 的 最 大 包含 重 写 的 任 一 算法 为 LAV 模式 
映射 生成 逻辑 查询 计划 。 找 到 最 大 包含 重 写 算法 的 计算 复杂 度 是 视图 数目 和 查询 大 小 的 多 项 
式 复杂 度 。 检 查 这 个 最 大 包含 重 写 是 否 与 原 查 询 等 价 是 NP 完全 问题 。 实 际 上 ， 算法 创建 的 
逻辑 查询 计划 通常 会 找到 所 有 确定 结果 ， 即 使 是 在 有 些 情况 下 不 能 确保 做 到 这 一 点 。 
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好 论 

LAV 灵活 性 的 增加 也 导致 了 查询 应 答 计 算 复杂 度 的 增加 。 根 本 原因 是 LAV 能 够 表达 
不 完整 的 信息 。 给 定 一 个 数据 源 集合 ，GAYV 映射 定义 与 这 些 数据 源 一 致 的 中 介 模 式 的 单 
一 实例 ， 因 此 查询 计算 可 以 简单 地 在 这 个 实例 上 完成 。 由 于 这 个 原因 ， 查 询 计算 的 复杂 度 
和 在 一 个 数据 库 上 计算 查询 很 相似 。 与 此 相反 ， 给 定 一 个 LAV 源 描述 的 集合 ， 存 在 一 个 
中 介 模 式 的 实例 集合 与 数据 源 一 致 ， 因 此 ，LAV 的 查询 计算 意味 着 查询 不 完整 信息 ， 而 这 
些 计 算 代 价 更 高 。 

最 后 ， 我 们 指出 LAV 的 一 个 缺陷 。 考 虑 关系 S1. Movie(MID, title) 和 S1. MovieDe- 
tail( MID，director，genre，year)。 这 两 个 关系 之 间 的 连接 需要 关键 字 MID, EF S1 
内 部 而 没有 放 进 中 介 模 式 中 。 因 此 ， 尽 管 它 能 够 对 包含 导演 、 类 型 和 年 份 的 MovieDe- 
tail 电影 详细 信息 进行 建 模 ， 但 是 LAV 描述 将 会 丢失 这 些 属性 与 电影 题目 的 关联 信息 。 
而 唯一 规避 的 方式 就 是 在 中 介 模 式 中 引入 一 个 电影 的 标识 符 。 然 而 ， 在 多 个 数据 源 上 的 
通用 标识 符 通 常 是 无 意义 的 ， 因 此 我 们 仍然 要 在 需要 的 地 方 为 每 个 数据 源 引 入 一 个 专门 
的 标识 符 。 


3.2.4 全 局 -局 部 视图 


幸运 的 是 ， 上 面 两 种 形式 可 以 结合 成 一 种 形式 ， 同 时 具有 两 者 的 表达 力 ( 其 唯一 成 本 
是 创造 出 另 一 个 缩写 ) 。 


BX AUB 

在 全 局 -局 部 视图 (Global- and-Local-as- View, GLAV) 中 ， 模 式 映 射 的 表达 式 其 左 
侧 包含 数据 源 上 的 一 个 查询 ， 其 右 侧 包 含 中 介 模 式 上 的 一 个 查询 。 形 式 上 ，GLAYV 的 定义 
如 下 所 示 。 

定义 3.6 (GLAV 模式 上 映射) 假设 C R—-A PARA, S={S,, =, S| Bn AK 
据 源 模式 。 一 个 GLAV 模式 映射 用 是 一 个 形 如 OS(X) COX) 或 者 08(X) =O (X) 表 
达 式 的 集合 ， 其 中 

© 05 是 中 介 模 式 G 上 的 一 个 查询 ，G 的 头 部 变量 是 下， 并 且 

© 0” 是 数据 源 上 的 一 个 查询 ， 数 据 源 的 头 部 变量 也 是 了 。 


例 3.6 假设 已 知 数据 源 S1 只 包含 1970 年 以 后 出 品 的 喜剧 ,我 们 可 以 用 如 下 的 
GLAV 表达 式 描述 它 。 注 意 ， 这 里 我 们 暂 用 去 掉 O° 和 0” 的 头 部 符号 : 


$1.Movie(MID, title), $1.MovieDetail(MID, director, genre, year) € 
Movie(title, director, “comedy”, year), year > 1970 <<< 


GLAV 的 语义 通过 指定 M 定义 的 关系 Mr 来 定义 。 


定义 3.7 (GLAV 语义 ) 假设 MM=Mi,，…， Mj 是 G 和 5=|S,，…，S,| 之 间 的 一 个 
GLAV 模式 映射 ， 其 中 M, HUA Q(X) COX) 或 者 05(X) =0%(X). 
假设 g 是 中 介 模 式 G 的 一 个 实例 ， 三 而， a Sa Æ Sio SE Sa 相应 的 实例 。 那么 对 


于 每 一 个 1<i<1， 如 下 的 条 件 成 立 ， 则 实例 的 元 组 (g, s, s s) 在 Mi 中: 
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© 如 果 MM 是 一 个 = 表达 式 ， 那么 S(s) = Qi(g)。 
© 如 果 MM; 是 一 个 CC 表达 式 ， 那 么 S(s) CQ;(g)。 


GLAV #F 
GLAV 的 重 写 等 于 将 LAV 技术 和 GAV 技术 组 合 起 来 。 给 定 一 个 查询 0， 它 可 以 通过 
如 下 两 个 步骤 进行 重 写 : 
。 使 用 视图 Q, =, OF 找到 查询 0 的 一 个 重 写 0'。 
© 通过 在 0' 中 将 每 个 0 替换 成 0; 生成 0"， 并 展开 结果 使 它 只 涉及 源 关系 。 
将 0" 应 用 到 源 关系 将 会 在 以 下 定理 指定 的 情况 下 产生 所 有 确定 结果 。 所 以 ,在 GLAV 
中 找到 确定 结果 的 复杂 度 以 及 找到 一 个 迎 辑 查询 计划 的 复杂 度 与 LAV 是 一 样 的 。 
定理 3.3 假设 肝 =M，…，M, 是 中 介 模 式 G 和 源 模式 S$= |5,，…，5,| 之 间 的 
GLAV 模式 映射 ， 其 中 M, 的 形式 是 0 (X) CQO (X) RAH OX) = 05(X) ， 并 且 假 设 在 中 
介 模 式 或 者 源 中 的 每 个 关系 至 多 出 现在 一 个 Mi; 中 。 令 0 是 G 上 的 一 个 合 取 查询 。 
假设 QO? 是 合 取 查询 或 者 合 取 查询 的 并 集 ， 它 们 可 以 带 有 比较 谓词 和 否定 谓词 。 
© 如 果 肛 中 所 有 的 OF 都 是 没有 比较 谓词 和 否定 的 合 取 查 询 ， 并 且 所 有 的 M, 都 是 
表达 式 ， 那 么 所 有 的 确定 结果 都 能 在 数据 大 小 和 M 大 小 的 多 项 式 时 间 内 找到 ， 并 
且 重 写 的 复杂 度 是 数据 源 个 数 的 多 项 式 复杂 度 。 
© 如 果 M 中 所 有 的 OF 都 是 没有 比较 谓词 和 否定 的 合 取 查 询 ， 并 且 某 些 M, 是 = 表达 
R, MARE 0 的 所 有 确定 结果 是 数据 大 小 的 co-NP-hard 问题 。 
© 如 果菜 些 0 包含 比较 谓词 ， 那 么 找到 0 的 所 有 确定 结果 是 数据 大 小 的 co-NP-hard 
问题 。 
当 某 些 关系 出 现在 不 止 一 个 M, 里 ， 根 据 上 述 描述 产生 的 重 写 只 能 生成 部 分 确定 结果 。 
RINES, GLAV 的 真正 强大 之 处 是 既 能 使 用 GAV 描述 ， 也 能 使 用 LAV 描述 ， 即 使 没 
有 一 个 源 描述 使 用 了 它们 两 者 。 


3.2.5 元 组 生成 依赖 


前 面 3 种 模式 映射 语言 都 是 基于 集合 包含 (或 等 值 ) ARMS: 查询 重 写 算法 描述 
了 ， 给 定 源 实例 和 约束 ， 什 么 样 的 查询 结果 是 确定 的 。 

还 有 一 种 语言 是 从 数据 依赖 约束 衍生 而 来 ， 即 元 组 生成 依赖 ( tuple- generatingdepen- 
dency，tgd) ， 它 是 一 种 为 了 规范 和 分 析 数 据 库 中 的 完整 性 约束 而 提出 的 形式 。 元 组 生成 依 
赖 在 表达 能 力 上 和 GLAV 映射 是 等 价 的 。 


TAA AIA 
我 们 已 经 在 2. 1. 2 节 中 简单 介绍 过 元 组 生成 依赖 ， 并 且 讨 论 了 完整 性 约束 ， 这 里 我 们 
重复 定义 : 
定义 3.8 (元 组 生成 依赖 ) 一 个 元 组 生成 依赖 (tgd) 是 一 个 源 数据 实例 (这 里 ， 指 
一 个 数据 库 ) 和 一 个 目标 数据 实例 (这 里 ， 指 中 央 数 据 库 或 者 中 介 模 式 ) 之 间 关 系 的 一 
个 判定 。 一 个 tgd 的 形式 为 : 
VX,Y(o(X,Y) > AZw(X,Z)) (3-1) 
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其 中 和沙 分 别 是 源 和 目标 实例 上 原子 的 合 取 。 如 果 在 tgd 的 左 侧 (lhs) 条 件 g 满足 ， 那 
么 在 其 右 侧 (ths) 条 件 炒 必须 满足 。 
注意 上 述 tgd 和 GLAV 包含 约束 等 价 : a 
Q°(X,Y) C Q"(Y,Z) 
其 中 
Q(X,Y) :- p(X,Y) 
Q"(Y,Z) +- y(Y,2) 
例 3.7 3.6 节 中 的 GLAV 描述 可 以 用 如 下 的 ted 指定 : 
S1.Movie(MID, title) a S1.MovieDetail(MID, director, genre, year) > 
Movie(title, director, “comedy”, year) A year > 1970 <<< 
通常 我 们 会 略 去 ted 描述 中 的 全 称 量词 ， 因 为 它们 能 够 从 约束 中 使 用 的 变 元 推导 出 来 。 
这 样 我 们 就 可 以 把 之 前 的 tgd ESN: 
p(X,Y) > AZp(X,Z) 
HMigd BF 
由 于 tgd 和 GLAV 映射 在 表达 能 力 上 等 价 ， 所 以 我 们 可 以 将 之 前 的 重 写 算法 应 用 到 tgd 
上 。 为 了 使 用 2. 4.5 节 中 的 逆 规 则 算法 来 重 写 tgpd， 有 一 种 更 为 直接 的 转换 。 给 定 一 个 如 
下 格式 的 tgd 
p(X,Y) 一 AZp(X,Z) 
生成 一 个 如 下 的 逆 规 则 程序 P: 
o 用 lhs All rhs 之 间 共 享 变 元 的 Skolem 函数 请 (X) 替换 rhs 中 的 每 一 个 存在 变 元 ze Zo 
其 生成 的 rhs 为 水 (X,2') ， 其 中 Z 中 的 每 个 变 元 现在 都 是 一 个 Skolem 函数 。 
。 OF (XZ) 中 的 每 个 关系 R (Xr) ， 定 义 一 个 新 的 逆 规 则 : 
R(Xn) :- p(X,Y) 
现在 就 可 以 像 2.4. 5 节 中 描述 的 一 样 ， 在 程序 P 上 验证 查询 。 


例 3.8 例 3.7 中 的 tgd 会 得 到 如 下 的 逆 规 则 : 


Movie(title, director, “comedy”, year”) :- S1.Movie(MID, title), 
51.MovieDetail(MID, director, genre, year) <<< 


在 10.2 节 中 我 们 会 看 到 一 个 更 为 复杂 的 叫做 chase 的 重 写 过程 。 它 通常 用 于 ted AA 
外 一 种 叫做 等 值 生成 依赖 〈egd) 的 约束 。 我 们 将 在 10. 2 市 中 讨论 元 组 生成 依赖 和 等 值 生 
成 依赖 的 chase 算法 。 我 们 注意 到 前 面 描述 的 逆 规 则 重 写 与 chase 的 执行 有 确切 的 对 应 关 
系 ， 虽然 其 只 针对 没有 egd 的 情况 。 


3.3 访问 模式 限制 


到 目前 为 止 ， 我 们 生成 的 逻辑 计划 都 假设 可 以 以 任意 方式 访问 数据 源 中 的 关系 。 这 就 
意味 着 ,数据 集成 系统 可 以 选择 它 认为 最 高 效 的 顺序 来 访问 数据 源 并 且 可 以 向 数据 源 提交 
任何 查询 。 实 际 上 ， 数 据 源 被 允许 的 访问 模式 有 很 多 限制 。 一 个 显而易见 的 例子 是 ， 对 于 
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表单 形式 的 Web 数据 源 ， 其 数据 的 获取 必须 通过 Web 服务 定义 的 特定 访问 接口 。 通 常 ， 
这 样 的 接口 由 多 个 输入 项 组 成 ， 用 户 必 须 填 写 给 定 的 输入 项 来 获得 结果 ， 并 且 几 乎 不 可 能 
从 这 样 的 数据 源 获得 所 有 元 组 。 有 些 情况 下 ， 访 问 模式 限制 是 为 了 对 数据 源 上 的 查询 进行 
限制 ， 从 而 控制 数据 源 上 的 负载 。 

本 节 首 先 介绍 如 何 对 针对 数据 源 的 访问 模式 限制 进行 建 模 ， 然 后 描述 如 何 将 一 个 逻辑 
查询 计划 优化 为 一 个 符合 这 些 限 制 的 可 执行 计划 。 我 们 会 发 现 访问 模式 限制 可 能 对 查询 计 
划 产生 微妙 的 影响 。 


3.3.1 构建 访问 模式 限制 


我 们 通过 向 数据 源 的 关系 中 添加 描述 符 (adornment) 来 构建 访问 模式 限制 。 特 别 是 ， 
如 果 一 个 源 关 系 有 个 属性 ， 那 么 一 个 描述 符 包含 了 一 个 长 度 为 %n， 由 字母 b 和 /组 成 的 字 
符 串 。 字 母 ,表示 该 数据 源 在 这 个 位 置 的 属性 必须 有 一 个 给 定 的 输入 值 , /表示 数据 源 在 这 
个 位 置 不 需要 一 个 值 。 如 果 有 多 个 允许 的 输入 集合 ， 我 们 就 向 这 个 源 附加 多 个 描述 符 。 


例 3.9 为 了 对 本 节 中 的 概念 进行 说 明 ， 我 们 使 用 一 个 出 版 物 和 引文 领域 的 例子 。 考 
虚 一 个 包含 如 下 关系 的 中 介 模 式 : Cites 存储 出 版 物 数 据 对 (XX，Y) ， 代 表 出 版 物 X 引 用 
了 出 版 物 Y。AwardPaper 存储 获奖 论文 的 标识 符 ，DBPapers 存储 数据 库 领 域 的 论文 标 
识 符 。 

如 下 的 LAV 表达 式 显示 了 源 的 访问 模式 限制 ; 


$1: CitationDB® (X,Y) © Cites(X,Y) 
S52: CitingPapers/ (X) € Cites(X,Y) 
53: DBSource/ (X) © DBpapers(X) 
S4: AwardDB?(X) c AwardPaper(X) 


第 一 个 源 存储 了 引文 的 数据 对 ， 表 示 第 一 篇 文章 引用 了 第 二 篇 ， 但 是 需要 引用 文章 作 
为 输入 (因此 描述 符 是 bf) 。 第 二 个 源 存 储 了 引用 某 篇 论文 的 全 部 文章 ， 并 且 可 以 查询 所 
有 这 些 文章 。 第 三 个 源 存储 数据 库 领 域 中 的 文章 ， 但 是 没有 任何 访问 约束 。 第 四 个 源 存储 
了 所 有 获奖 论文 ， 但 是 需要 文章 的 标识 符 作为 输入 。 也 就 是 说 ， 你 可 以 查询 某 篇 文章 是 否 
获奖 ， 但 是 不 能 查询 所 有 获奖 文章 。 <<< 


3. 3.2 生成 可 执行 计划 


给 定 一 个 访问 模式 限制 的 集合 ， 我 们 需要 生成 可 执行 的 逻辑 计划 。 直 观 地 说 ， 一 个 可 
执行 计划 (executable query plan) 可 以 随时 在 数据 源 需 要 时 向 其 提供 数据 。 因 此 ， 可 执行 
计划 的 一 个 关键 点 就 是 它 的 子 查询 顺序 。 可 执行 查询 计划 定义 如 下 。 

定义 3.9 (可 执行 计划 ) MIRO, (X), = p(X.) 是 一 组 数据 源 上 的 合 取 查询 计 
划 ，BF, 是 描述 源 q; 访问 模式 限制 的 描述 符 集合 。 

如 果 有 一 个 描述 符 选择 Of, oo, Of, RB IO FRR A, 我 们 称 gi (XK), ，…， 
q, (于 ) 是 一 个 可 执行 计划 : 

e bf, e BF,, 并且 

© 如 果 变 量 X 出 现在 G(X.) 的 第 个 位 置 ， 并且 bf; 的 第 个 字母 是 b， 那 么 于 出 现 

在 子 查询 G(X) 中， 其 中 j <i。 
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算法 7 FindExecutablePlan: 生成 逻辑 查询 计划 可 执行 顺序 的 算法 


MWA: 形式 为 gi(X)，…，g,(X,) 的 逻辑 查询 计划 ; HAA BF =BF,，…，BF,， 其 中 BF, 是 可 
的 一 个 描述 符 集合 。 
输出 : EP 是 生成 的 计划 。 
EP = 空 链表 
for =1，…,，7mdo 
初始 化 AD, = BF, 
{ 由 于 我 们 向 这 个 计划 中 添加 子 查询 ， 所 以 使 用 AD, 记录 新 的 访问 模式 | 
end for 
repeat 
选择 一 个 子 查询 G(X) Q, EE AD, 有 一 个 所 有 字母 均 为 的 描述 符 ， AE qX) & EP 
H(X) 添加 到 EP 的 尾部 
for 每 个 变量 人 eX do 
if X 出 现在 g,(X) 的 第 万 个 位 置 ， 并 且 描述 符 ade AD, 的 第 大 个 位 置 是 6 then 把 位 置 上 变 为 / 
end if 
end for 
until 不 再 有 新 的 子 查询 可 以 加 入 EP 
if Q 中 的 所 有 子 查询 都 在 EP 中 then 
return 可 执行 计划 EP 
else 
return 没有 可 执行 的 顺序 
end if 
































TERR, Rae a va a EAN AR FOE 7 表明 ， 对 于 一 个 给 定 的 逻 
辑 查询 计划 ， 如 何 使 用 简单 的 贪心 算法 来 找到 一 个 可 执行 顺序 。 直 观 地 说 ， 算 法 为 计划 中 
的 子 查询 进行 排序 ， 首 先是 那些 拥有 一 个 完全 自由 描述 符 〈 例 如 ， 所 有 都 是 .六 的 子 查询 ， 
然后 迭代 地 添加 那些 其 要 求 被 计划 中 已 有 子 目 标 满足 的 子 目 标 。 

当 不 能 为 一 个 查询 计划 里 的 子 查 询 找 到 一 个 可 执行 的 顺序 时 ， 我 们 就 需要 考虑 能 否 添 
加 子 查 询 使 计划 可 执行 ， 以 及 新 的 计划 能 否 保证 找到 所 有 的 确定 结果 。 


例 3.10 考虑 如 下 中 介 模 式 上 的 查询 ， 查 询 所 有 引用 文章 #001 的 论文 ; 


Q(X) :- Cites(X,001) 

忽略 访问 模式 限制 ， 如 下 的 计划 可 以 达到 目的 : 

Q(X) :- CitationDB(X, 001) 

然而 ， 上 面 这 个 计划 不 可 执行 ， 因 为 CitationDB 需要 第 一 个 域 作为 输入 。 幸 运 的 是 ， 
下 面 的 这 个 长 一 些 的 计划 是 可 执行 的 : 


q(X) :- CitingPapers(X), CitationDB(X, 001) <<< 


上 面 的 例子 表明 ， 向 计划 中 添加 子 查询 来 获得 一 个 可 执行 的 计划 是 可 行 的 。 下 面 的 例 
子 表明 这 样 的 计划 可 以 没有 任何 长 度 限 制 ! 


例 3. 11 考虑 如 下 查询 ， 查 询 获奖 的 所 有 论文 ， 在 这 个 例子 中 忽略 S2, 
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Q(X) :- AwardPaper(X) 

由 于 数据 源 AwardDB 的 输入 是 有 所 限制 的 ， 所 以 不 能 没有 限制 就 进行 查询 。 不 过 ， 
我 们 可 以 先 找到 候选 获奖 论文 。 一 种 寻找 候选 论文 的 方法 是 查询 数据 源 DBSource， 获 得 
所 有 数据 库 论 文 ， 然 后 把 这 些 论文 作为 AwardDB 上 查询 的 输入 。 另 外 一 种 获得 候选 集 的 
方式 是 ， 通 过 计算 被 数据 库 论文 引用 的 论文 得 到 ， 即 计算 数据 源 DBSource 和 数据 源 
CitationDB 的 连接 。 

事实 上 ， 可 以 对 这 个 模式 进行 一 般 化 处 理 。 对 于 任意 一 个 整数 n， 可 以 先 找到 个 通过 
以 数据 库 论文 开始 的 长 度 为 n 的 引用 链 到 达 的 候选 论文 。 把 这 些 候选 论文 作为 查询 范围 给 数 
据 源 AwardDB 来 检查 它们 是 否 是 获奖 论文 。 如 下 的 查询 计划 解释 了 这 个 模式 。 然 而 问题 在 
于 ， 除 非 有 一 些 领 域 知识 ， 否 则 我 们 不 能 确定 需要 创建 的 查询 计划 的 数值 no 


Q’(X) :- DBSource(X), AwardDB(X) 
Q’(X) :- DBSource(X), CitationDB(V, X1),..., CitationDB(X,, X), AwardDB(X) << 


幸运 的 是 ， 在 无 法 确定 查询 计划 长 度 时 ， 可 以 考虑 简洁 的 可 执行 递归 查询 计划 来 获得 
所 有 的 可 能 结果 。 一 个 递归 查询 计划 是 一 个 datalog 程序 ， 其 谓词 为 数据 源 ， 它 可 以 在 查 
询 关系 之 外 ， 依 据 中 间 结 果 关 系 不 断 加 以 计算 。 让 我 们 先 来 看 看 如 何 构造 一 个 递归 计划 。 


例 3. 12 构造 递归 计划 的 关键 在 于 定义 一 个 新 的 中 间 关 系 papers， 它 是 所 有 能 够 从 
数据 库 论文 开始 的 引用 链 中 搜索 到 的 论文 集合 。 关 系 papers 通过 下 面 规则 中 的 前 两 个 规 
则 来 定义 ， 而 第 三 个 规则 将 papers 和 AwardDB 连接 。 注 意 计 划 中 的 每 个 规则 都 是 可 执 
行 的 。 

papers(X) :- DBSource(X) 


Papers(X) :- papers(Y), CitationDB(Y, X) 
Q(X) :- papers(X), AwardDB(X). <<< 


现在 介绍 在 一 般 情况 下 如 何 构建 这 样 一 个 递归 计划 。 我 们 讨论 的 每 个 数据 源 都 用 一 个 
带 有 单一 描述 符 的 关系 来 表示 ， 这 样 泛 化 多 个 描述 符 的 情况 也 非常 容易 。 给 定 一 个 数据 源 
集合 S$,，…，5, 上 的 逻辑 查询 计划 O， 我 们 用 以 下 两 个 步骤 创建 一 个 可 执行 查询 计划 。 

步骤 1: 定义 一 个 中 间 关 系 Dom， 它 包含 从 数据 源 获得 的 域 中 的 所 有 常数 。 令 
$ (不 ，…， 思 ) 是 一 个 数据 源 ， 并 不 失 一 般 性 地 假设 5; 的 描述 符 要求 X, o, X (Cor 1< 
k) 是 受 限制 的 ， 其 余 的 是 自由 的 。 对 于 1+1<j<k， 我 们 添加 如 下 规则 

Dom(Xi) :- Dom(X1),..., Dom(X)), Si(X1,..., Xk) 

注意 ， 至 少 有 一 个 源 其 描述 符 的 字母 全 是 f; 否则 ， 我 们 不 能 回答 任何 查询 。 这 些 源 
会 为 Dom 提供 基本 规则 。 

步骤 2: 通过 插入 关系 Dom 中 必要 的 原子 来 修改 原来 的 查询 计划 。 特 别 是 ， 对 于 计 
划 中 的 每 个 变量 X， 假 设 k 是 它 出 现 的 第 一 个 子 查询 。 如 果 g,(X,) 的 描述 符 在 X Ea) 
中 的 任意 一 个 位 置 上 都 是 5， 则 在 g,(X,) 的 前 面 插入 原子 Dom(X)。 

很 明显 ， 在 很 多 情况 下 上 述 算法 的 效率 非常 低 。 实 际 上 ， 关 系 Dom 只 需要 包含 在 某 
些 源 中 需要 限制 的 列 值 。 此 外 ， 我 们 可 以 使 用 多 个 关系 来 改进 关系 Dom ， 每 个 关系 中 都 
包含 一 个 与 某 个 特定 列 相关 的 常数 〈 例 如 ， 可 以 为 电影 名 创建 一 个 关系 ， 再 为 城市 名 创建 
一 个 关系 )。 在 很 多 应 用 领域 中 ,例如 地 理 (国家 、 城 市) 和 电影 ， 已 经 有 了 一 个 常数 列 

[84] 表 。 在 这 种 情况 下 ， 可 以 使 用 这 些 列表 代替 Dom, 
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3.4 中 介 模 式 上 的 完整 性 约束 


当 设计 一 个 中 介 模 式 时 ， 通 常 对 于 一 个 领域 有 一 些 附加 知识 。 我 们 用 完整 性 约束 来 表 
达 这 样 的 知识 ， 比 如 函数 依赖 或 者 包含 约束 。 本 节 主 要 介绍 中 介 模 式 上 的 完整 性 约束 如 何 
影响 查询 计划 以 便 生成 所 有 确定 结果 。 完 整 性 约束 对 LAV 和 GAV 源 描述 均 有 影响 。 


3.4.1 带 有 完整 性 约束 的 LAV 
下 面 的 例子 说 明 当 LAV 中 有 完整 性 约束 时 将 会 带 来 的 复杂 问题 。 


例 3.13 考虑 一 个 只 包含 一 个 关系 的 中 介 模 式 ， 这 个 关系 包含 航班 安排 信息 : 每 次 
航班 的 飞行 员 和 飞机 。 

schedule(airline, flightNum, date, pilot, aircraft) 

假设 在 关系 Schedule 中 有 如 下 的 函数 依赖 : 

Pilot—Airline 和 Aircraft—Airline 

第 一 个 函数 依赖 是 飞行 员 只 能 为 一 条 航线 工作 ， 第 二 个 函数 依赖 是 在 不 同 的 航线 上 没 
有 共享 的 飞机 。 假 设 我 们 在 源 S 上 有 如 下 的 LAV 模式 映射 : 

S(date, pilot, aircraft) © schedule(airline, flightNum, date, pilot, aircraft) 

MS 记录 了 飞行 员 驾 驶 不 同 飞机 的 日 期 。 现 在 假设 一 个 用 户 查询 与 Mike 在 同一 条 航 
线 工作 的 飞行 员 : 

q(p) :- schedule(airline, flightNum, date, “mike”, aircraft), schedule(airline, f, d, p, a) 

源 S 没有 记录 飞行 员工 作 的 航线 ， 因 此 如 果 没 有 任何 其 他 信息 ， 我 们 就 不 能 计算 查询 
q 的 任何 结果 。 尽 管 如 此 ， 使 用 关系 schedule 的 函数 依赖 可 以 得 到 和 Mike 在 同一 航线 的 
飞行 员 。 考 虑 图 3-3 中 的 数据 库 ， 如 果 已 知 Mike 和 Ann 都 驾驶 过 相 11 KHL, ASAI 
数 依赖 Aircraft 一 Airline 可 知 Ann 和 Mike 在 同一 条 航线 上 工作 。 此 外 ， 由 于 完整 性 约束 
Pilot 一 Airline， 我 们 得 出 Join 和 Mike 在 同一 条 航线 上 工作 。 一 般 来 说 ， 我 们 可 以 考虑 任 
何如 下 形式 的 逻辑 查询 计划 gq’, : 


q’n(p) :- S(D1,”mike”,Cı), S(D2, p2, Ci), S(D3, p2, C2), S(D4, p3, C2), ..., 
S(D2n—-2, pm Cr—1), S(D2n—1, pm Cn), S(D2n, P, Cn) 


对 于 任何 n，q' 可 以 得 出 更 短 的 计划 不 能 得 出 的 查询 结果 ， 因 此 逻辑 查询 计划 没有 长 
度 限制 。 幸 运 的 是 ， 在 访问 模式 限制 的 情况 下 ,我们 可 以 使 用 递归 查询 计划 。 下 面 将 描述 
递归 查询 计划 的 构建 过 程 ， 递 归 查 询 计划 能 够 确保 即使 存在 函数 依赖 的 情况 下 ， 也 能 产生 
所 有 确定 结果 。 <<< 


构造 过 程 的 输入 是 通过 逆 规 则 算法 (2.4.5 节 ) AE 
辑 查 询 计 划 a'o W S MMMM GE Ara. A, Af, 是 Skolem 也 
数 ， 它 们 用 来 表示 拥有 不 完整 信息 的 对 象 。 

schedule(fi (d,p,a), fp(d,p,a), d, p, a) :- S(d, p, a) 

逆 规 则 自己 不 会 考虑 函数 依赖 的 存在 性 。 例 如 ， 在 图 3-3 中 
的 表 上 应 用 逆 规 则 将 会 产生 如 下 元 组 : 图 3-3 ”一 个 飞行 员 调度 

schedule(f\(1/1, Mike, #111), fo(1/1, Mike, #111), 1/1, Mike, #111) 的 数据 库 

schedule(f (5/2, Ann, #111), f2(5/2, Ann, #111), 5/2, Ann, #111) 

schedule(fi (1/3, Ann, #222), f2(1/3, Ann, #222), 1/3, Ann, #222) 

schedule(fi (4/3, John, #222), f2(4/3, John, #222), 4/3, John, #222) 








62 第 一 部 分 数据 集成 技术 基础 





由 于 关系 schedule 上 的 函数 依赖 ,我 们 可 能 得 到 /i (1/1, Mike, #111) 等 于 
f,(5/2, Ann, #111), FFA EMIS FSA (1/3, Ann, #222) FAlf,(4/3, John, # 
222). 

通过 引入 一 个 新 的 二 元 关系 e 使 递归 查询 计划 能 够 得 出 这 样 的 推论 。e 的 含义 是 
e(ci，c;) 成 立 当 且 仅 当 在 给 定 的 函数 依赖 下 c, Alc, 是 相等 的 常量 。 因 此 ，e 的 扩展 包含 
了 = 的 扩展 〈 例 如 ， 对 于 每 个 X， 有 e(X，X) ) ， 和 可 以 通过 如 下 的 chase 规则 推导 出 来 
的 元 组 (e(4, A’) 是 e(Al，A'1)，…，e( A,，A') 的 缩写 ) 。 

定义 3. 10 (Chase 规则 ) ”假设 4->B 是 中 介 模 式 中 关系 p 满足 的 一 个 函数 依赖 ， 令 C 
AREA, BPH pH Be, HF AB 的 chase 规则 如 下 : 

e(B,B’) :- p(A, B,C), p(A',B',C'), e(A,A’). 

给 定 一 个 中 介 模 式 上 的 函数 依赖 集合 5， 我 们 使 用 chase (3) 表示 对 应 于 了 中 的 函数 
依赖 的 chase 规则 集合 。 在 我 们 的 例子 中 ，chase 规则 是 : 


e(X,Y) :- schedule(X, F, P, D, A), schedule(Y, F’, P’, D’, A’), e(A, A’) 
e(X,Y) :- schedule(X, F, P, D, A), schedule(y, F’, P’, D’, A’), e(P, P’) 


chase 规则 人 允许 我 们 在 关系 e 中 推导 出 如 下 事实 : 
e(fi(1/1, Mike, #111), fi (5/2, Ann, #111)) 

e(f1 (5/2, Ann, #111), fi(1/3, Ann, #222)) 

e(fi (1/3, Ann, #222), fi (4/3, John, #222)) 


e 的 扩展 是 自 反 的 ， 由 于 chase 规则 的 对 称 性 ， 所 以 它 也 是 对 称 的 。 为 了 保证 e 是 一 
个 等 价 关系 ， 我 们 添加 了 如 下 规则 来 保证 e 的 传递 性 : 

T: e(X,Y) :- e(X,Z), e(Z,Y). 

构造 的 最 后 一 步 是 重 写 查询 q' ， 让 它 可 以 使 用 关系 e 推导 出 来 的 等 价 性 。 我 们 初始 化 
q" 为 q' 并 应 用 如 下 转换 : 

1) 如 果 c 是 q" 的 子 目 标 中 的 一 个 常量 ， 则 把 它 蔡 换 为 一 个 新 的 变量 Z， 并 添加 子 查 询 e 


(Z, Cc). 
2) 如 果 XX 是 q" 头 部 的 一 个 变量 ,把 q" 主 体 中 的 X 蔡 换 成 一 个 新 的 变量 X'， 并 添加 子 
查询 e(X', X). 


3) 如 果 一 个 不 在 q" 头 部 的 变量 了 出 现在 q" 的 两 个 子 查 询 中 ， 将 其 中 一 个 替换 成 Y'， 
并 添加 子 查 询 e(Y',，Y)。 
应 用 上 述 步骤 直到 不 再 向 q "中 添加 子 查询 。 在 我 们 的 例子 中 ，q' 将 会 重 写 为 : 


q” (P) :- schedule(A, F, D, M, C), schedule(A’, F’, D P’, C’), e(M, “mike”), 
e(P’, P), e(A, A’) 


得 到 的 结果 查询 计划 包含 了 q”, chase 规则 和 传递 规则 T。 从 上 面 的 构造 过 程 中 可 以 
看 出 ， 它 能 够 保证 在 有 函数 依赖 的 情况 下 产生 查询 的 所 有 确定 结果 。 参 考 文献 注释 中 包含 
了 这 个 结论 的 完整 证 明 。 


3.4.2 带 有 完整 性 约束 的 GAV 


与 LAV BREAN Te], CAV 模式 映射 的 一 个 重要 特点 是 它 不 会 对 不 完整 信息 建 模 。 给 定 
一 个 数据 源 集合 和 一 个 CAV 模式 上 映射， 存在 一 个 与 源 对 应 的 中 介 模 式 的 单一 实例 ， 从 而 
简化 了 查询 处 理 。 在 有 完整 性 约束 的 情况 下 ， 正 如 下 面 的 例子 中 显示 的 ， 该 特性 不 再 
满足 。 
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例 3. 14 假定 除了 关系 schedule 处 ， 我们 还 有 一 个 关系 flight(flightNum origin, 
destination) 存储 了 每 个 航班 的 开始 和 结束 时 间 。 此 外 ,我 们 有 如 下 的 完整 性 约束 : 每 
个 出 现在 关系 schdule 中 的 航班 号 必须 出 现在 关系 flight 中 : 


schedule(flightNum) © flight(flightNum). 
假定 我 们 有 两 个 源 ， 每 一 个 为 中 介 模 式 中 的 一 个 关系 提供 元 组 〈 因 此 模式 映射 是 非常 
琐碎 的 ) 。 考 虑 一 个 查询 所 有 航班 号 的 查询 : 


q(fN) :- schedule(airline, fN, date, pilot, aircraft), flight(fN, origin, destination) 
E GAV 中 ， 可 通过 查询 展开 以 及 对 表 3-1 中 的 两 个 表 进 行 连接 来 回答 该 查询 ， 但 是 
只 考虑 了 数据 源 中 的 元 组 。 因 此 ， 出 现在 关系 schedule 中 但 没有 出 现在 flight 中 的 #111 
号 航班 将 不 会 出 现在 结果 中 。 
表 3-1 飞行 员 和 航班 安排 




















航班 
航班 号 | 出 发 地 | 目的 地 
222 Seattle SFO 
333 | SFO Saigon 
调度 
航线 飞机 
联合 航空 公司 波音 777-15 
新 加 坡 航空 公司 波音 777-17 





<<< 


完整 性 约束 表明 ， 有 些 元 组 可 能 没有 显 式 地 出 现在 数据 源 中 。 特 别 是 ， 当 我 们 不 知道 
#111 号 航班 的 具体 信息 时 ， 只 知道 它 存在 并 且 应 该 包含 在 q 的 结果 中 。 注 意 ， 在 开放 世 
界 假设 的 前 提 下 这 种 情况 就 会 发 生 。 如 果 是 在 封闭 世界 假设 下 ， 那 么 在 这 个 例子 里 的 数据 
源 将 会 与 模式 映射 不 一 致 。 

使 用 和 LAV 中 相似 的 技术 ， 存 在 一 种 扩展 逻辑 查询 计划 的 方法 来 保证 我 们 获得 所 有 
确定 结果 。 读 者 可 以 在 参考 文献 注释 中 了 解 更 多 细节 。 


3.5 结果 完备 性 


我 们 已 经 知道 模式 映射 可 以 表达 数据 源 的 完备 性 (completeness)， 也 已 经 看 到 数据 源 
的 完备 性 如 何 影响 寻找 确定 结果 的 复杂 度 。 知 道 数据 源 是 否 完备 对 于 生成 更 加 高 效 的 查询 
计划 来 说 非常 有 用 。 特 别 是 ， 如 果 存 在 一 些 包含 相似 数据 的 数据 源 时 ， 除 非 知道 其 中 之 一 
是 完备 的 ， 否 则 需要 查询 所 有 数据 来 获得 全 部 可 能 的 结果 。 本 节 考 虑 了 一 种 改进 的 完备 性 
定义 ， 叫 做 局 部 完备 性 (local completeness)。 


3.5.1 局 部 完备 性 


实际 上 ， 数 据 源 通 常 都 是 局 部 完备 的 。 例 如 ， 一 个 电影 数据 库 可 能 在 近期 的 电影 信息 
上 是 完备 的 ， 但 是 在 以 前 的 电影 信息 上 是 不 完备 的 。 下 面 的 例子 显示 了 我 们 如 何 用 局 部 完 
备 信息 来 扩展 LAV 表达 式 。 相 似 地 ， 我 们 也 可 以 描述 CAV 中 的 局 部 完备 性 。 


例 3. 15 EHZ S5 ~ S7 中 的 LAV 源 描 述 : 


| 88 | 
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S5.MovieGenres(title, genre) © Movie(title, director, year, genre) 
$6.MovieDirectors(title, dir) © Movie(title, director, year, genre) 
S7.MovieYears(title, year) C Movie(title, director, year, genre) 


我 们 可 以 添加 如 下 的 局 部 完备 性 (LC) 描述 : 
LC(S5.MovieGenres(title, genre), genre="comedy”) 
LC(S6.MovieDirectors(title, dir), American(director)) 
LC(S7.MovieYears(title, year), year > 1980) 


上 面 的 判定 表达 了 S5 在 喜剧 上 是 完备 的 ，S6 在 美国 导演 (其 中 在 中 介 模 式 中 
American 是 一 个 关系 ) 上 是 完备 的 ，S7 在 1980 年 或 以 后 出 品 的 电影 上 是 完备 的 。 <<< 


从 形式 上 ， 我 们 通过 指定 数据 源 元 组 上 的 一 个 约束 来 定义 局 部 完备 性 。 

定义 3. 11 (局 部 完备 性 约束 ) 假设 M 是 一 个 形 如 S(X) COAX) 的 LAV 表达 式 ， 
其 中 S 是 一 个 数据 源 ，Q(X) 是 一 个 中 介 模 式 上 的 合 取 查询 。M 的 一 个 局 部 完备 性 约束 
C 是 中 介 模 式 中 关系 原子 的 合 取 ， 或 者 是 不 包含 Q 中 提 及 的 关系 名 的 比较 谓词 原子 的 合 
取 。 这 些 原子 可 能 包含 X 中 的 变量 或 者 一 些 新 的 原子 。 我 们 用 -C 表示 C 的 补 集 。 

局 部 完备 性 表达 式 LC(S, C) 的 语义 除了 原 有 的 表达 式 外 ， 在 模式 映射 中 我 们 还 有 
如 下 的 表达 式 。 注 意 ， 我 们 向 Q 中 添加 了 C 的 合 取 。 

S(X) = Q(X), C 

当 模式 映射 可 以 包含 局 部 完备 性 语句 时 ， 一 个 自然 而 然 的 问题 就 是 : AE — 
式 上 的 查询 ， 能 否 保 证 查询 结果 的 完备 性 ? 


例 3. 16 考虑 例 3. 15 中 源 上 的 如 下 两 个 查询 : 
q (title) :- Movie(title, director, genre, “comedy”), year > 1990, American(director) 
ga(title) :- Movie(title, director, genre, “comedy”), year > 1970, American(director) 


qi 的 结果 能 够 保证 是 完备 的 ， 因 为 它 只 用 到 了 完备 数据 源 的 部 分 数据 : B 1990 年 之 
后 出 品 的 美国 导演 的 喜剧 。 另 一 方面 ，q，, 的 结果 可 能 是 不 完备 的 ， 因 为 数据 源 S7 没有 
1970 年 到 1980 年 出 品 的 电影 信息 。 <<< 


下 面 给 出 结果 完备 性 的 形式 化 定义 。 这 个 定义 表明 ， 如 果 数 据 源 的 两 个 实例 与 局 部 完 
备 数据 源 中 的 元 组 是 一 致 的 ， 则 它们 具有 相同 的 确定 结果 。 

定义 3. 12 (结果 完备 性 ) BEMA S, =, S, 上 的 一 个 LAV 模式 映射 ， 源 中 包 
含 形 如 Si (X) CO(X,) 的 表达 式 集合 和 一 个 形 如 LC(5;，C,) 的 局 部 完备 性 判定 集合 。O 
是 中 介 模 式 上 的 一 个 合 取 查询 。 

如 果 对 于 任意 数据 源 的 实例 对 di; 、d,， 使 得 对 于 任意 i， 如 果 d fod, 有 相同 的 满足 
C, 的 5; 元 组 , 则 0 在 di 上 的 确定 结果 和 在 d, 上 的 相同 ， 那 么 查询 0 对 于 M 来 说 的 是 结 
果 完 备 的 。 


3. 5.2 结果 完备 性 检测 


下 面 介绍 一 个 算法 来 判定 一 个 查询 什么 时 候 是 结果 完备 的 。 为 了 突出 算法 的 关键 部 
h, 这 里 只 考虑 一 个 简化 的 设置 。 假 设 数据 源 直接 对 应 中 介 模 式 里 的 关系 ， 参 数 是 一 个 比 
较 原 子 的 合 取 。 我 们 假定 LAV 表达 式 的 形式 是 : 

Si CRUE 
其 中 , R 是 一 个 中 介 模 式 中 的 关系 ，C' 是 比较 谓词 的 合 取 。 
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算法 8 显示 了 如 何 通 过 把 问题 转化 为 一 个 查询 包含 问题 来 确定 结果 完备 性 。 算 法 的 思 
想 如 下 : 由 于 数据 源 S 对 于 满足 C 的 元 组 是 完备 的 ， 所 以 在 5; 中 唯一 可 能 缺失 的 元 组 就 
是 那些 满足 -=C; 的 元 组 。 我 们 定义 视图 V 来 表示 包含 5; 中 满足 C 的 元 组 和 那些 可 能 会 从 
S: 中 丢失 的 元 组 。 视 图 V 包含 5; 中 满足 C 的 元 组 ， 以 及 来 自我 们 不 知道 其 元 组 信息 的 新 
关系 E, AWE, 的 元 组 。 注 意 ， 对 E 做 适当 的 扩展 ， 可 能 生成 一 个 等 价 于 S 任何 可 能 
实例 的 实例 Vo 

算法 接着 对 O 和 0' 进 行 比较 ， 其 中 ,把 5; 出 现 的 地 方 都 蔡 换 成 了 万。 如 果 这 两 个 查 
询 是 等 价 的 ， 那么 对 于 S: AE, 的 任何 实例 都 能 获得 相同 的 结果 。 由 于 @ 不 依赖 于 E, Hr 
以 这 意味 着 QO 完全 由 满足 C 的 5; 元 组 来 决定 。 


算法 8 Decide-Completeness: 检测 查询 结果 完备 性 的 算法 
MA: EH =S, =, S, 上 的 合 取 查 询 ; MOS LAV 表达 式 8 (X) CR( 针 )，C' 和 局 部 完备 性 判 
fe EL(S,, Go 
输出 : 返回 yes 当 且 仅 当 Q@ 相对 于 只 是 结果 完备 的 。 
HE, =, E, AHAAA 








按 如 下 规则 定义 视图 VV，…，,V,: 
VIXI BE: 7G, 
V,(X,) -S C 
设 01 是 将 @ 中 所 有 S 替换 成 V 的 查询 
return yes 当 且 仅 当 QO 等 价 于 Q, 


下 面 的 定理 证 明了 算法 Decide-Completeness 的 正确 性 。 

定理 3.4 AMARS,, =, S, 的 一 个 LAV 模式 映射 ， 源 中 包含 表达 式 S( 蕊 ) C 
R(X,) .CI 和 一 个 本 地 完备 性 判定 集合 LC(S;,，C;) 。Q 是 中 介 模 式 上 的 一 个 合 取 查询 。 

算法 Decide-Completeness 返回 yes 当 且 仅 当 Q 相对 于 用 是 结果 完备 的 。 

WEAR: 首先 ,假设 O, 不 等 价 于 @, 证明 0 相对 于 M 不 是 结果 完备 的 。 

由 于 O 关 Q@， 所 以 存在 一 个 让 @ AQ, 返回 不 同 结果 的 数据 库 实例 4。 令 di 为 数据 源 
S: 对 应 d HP RE. Sd, 为 数据 源 S, 上 的 视图 V 对 应 d 的 扩展 实例 。 对 于 1 <i<n， 
实例 d, Ald, 在 满足 C; 的 S; 元 组 上 是 一 致 的 ， 但 是 在 0 的 确定 结果 上 不 一 致 ， 因 此 CQ 相 
对 于 不 是 结果 完备 的 。 

另 一 方面 ， 假 设 Q =Q, Wed, Fld, 是 数据 源 的 两 个 实例 ， 它 们 在 满足 C; 的 $ 元 组 上 
是 一 致 的 。 设 d fed, (同样 ，d,) 的 限制 ， 其 只 包含 满足 C; 的 $ 元 组 。 因 为 S=, a 
以 得 到 Cd) =Q(d;), 同 理 ， A QO(d,) =Q(d;). AE Q(d,) =@(d)。 E 


3.6 数据 级 的 异 构 性 


到 目前 为 止 ， 对 我 们 所 描述 的 模式 映射 做 了 这 样 的 假设 当 映 射 用 的 表达 式 需 要 对 不 
同 源 中 的 元 组 进行 连接 时 ， 连 接 的 列 必须 有 可 比较 的 值 。 例 如 ， 在 电影 领域 中 ， 我 们 假设 
当 一 个 电影 出 现在 一 个 源 中 时 ， 它 的 名 字 和 它 出 现在 其 他 源 中 的 名 字 是 相同 的 。 

实际 上 ， 通常 情况 下 数据 源 之 间 不 仅 模 式 结构 有 可 能 不 同 ， 而 且 它 们 的 取 值 也 可 能 有 
很 大 的 不 同 。 我 们 把 这 类 差异 称 为 数据 级 异 构 性 (data-level heterogeneity) 。 数 据 级 异 构 性 
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可 以 大 致 分 为 以 下 两 类 。 
3.6.1 标 度 差异 性 


第 一 种 数据 级 的 异 构 性 体现 在 不 同 数据 源 的 值 之 间 存 在 一 些 数值 转换 。 例 如 ， 一 个 源 
使 用 华氏 度 来 表示 温度 ， 而 另 一 个 源 使 用 摄氏 度 来 表示 温度 ; 或 者 一 个 源 使 用 数字 来 表示 
课程 得 分 的 等 级 ， 而 另 一 个 源 使 用 字母 来 表示 课程 得 分 的 等 级 。 在 某 些 情况 下 ， 这 些 数值 
转换 可 能 还 需要 其 他 列 上 的 值 。 例 如 ， 一 个 源 使 用 两 列 来 分 别 表 示 一 人 的 姓 和 名 ， 而 另 一 
个 源 只 使 用 一 个 列 存储 姓名 。 在 第 二 个 例子 中 看 到 的 这 些 转换 有 时 并 不 是 简单 地 可 逆 的 。 
因此 ， 从 将 姓 和 名 合并 存储 的 源 中 准确 得 到 这 个 人 的 名 字 是 不 可 能 的 。 在 其 他 情况 中 ， 转 
换 可 能 需要 更 深层 次 的 语义 信息 。 例 如 ， 在 一 个 数据 库 中 ， 价 格 可 能 包含 了 地 方 税 费 ， 但 
是 在 男 一 个 数据 库 中 并 没有 包含 税 费 。 一 些 转换 还 是 时 间 依 赖 的 ， 例 如 货币 间 的 汇率 是 实 
时 变化 的 。 

这 种 数据 级 的 异 构 可 以 通过 在 模式 映射 的 表达 式 中 加 入 转换 函数 来 解决 。 例 如 ， 下 面 
的 第 一 个 表达 式 把 数据 从 华氏 度 转换 为 摄氏 度 ， 第 二 个 表达 式 把 源 中 的 价格 调整 为 包含 地 
方 税 费 的 价格 。 


S(city, temp - 32 * 5/9, month) € Weather(city temp, humidity, month) 
CDStore(cd, price) © CDPrices(cd, state, price * (1+rate)), LocalTaxes(state, rate) 


3.6.2 相同 实体 的 多 重 表示 


当 现 实 世 界 的 同一 对 象 出 现 多 种 引用 方式 时 会 导致 第 二 种 数据 级 差异 。 常 见 的 例子 包 
括 同 一 家 公司 的 不 同 称呼 (例如 IBM 与 International Business Machines, Google 与 Google 
Inc.) 以 及 同一 个 人 名 字 的 不 同 表示 方式 (例如 Jack M. Smith 5 J. M. Smith) 。 当 引用 的 是 
复杂 对 象 时 ， 相 同 实体 的 多 重 引 用 问题 就 会 十 分 复杂 。 例 如 ， 有 关 出 版 物 的 信息 包括 作 
者 、 书 名 、 发 行 时 间 和 发 行 地 点 等 。 而 且 数 据 本 身 可 能 也 存在 问题 ， 使 得 问题 变 得 更 复 
杂 。 在 某 些 情况 下 ， 我 们 甚至 不 知道 确切 的 事实 。 例 如 ， 生 物 学 家 有 多 种 表达 基因 或 者 物 
种 的 方式 ， 但 是 他 们 也 不 知道 怎么 解决 这 些 表 达 方 式 的 不 一 致 性 。 
为 了 解决 这 种 差异 性 问题 ， 我 们 可 以 构建 类 似 的 语汇 索引 表 ， 它 将 同 种 物体 的 不 同 表 
示 罗 列 成 一 行 。 需 要 强调 的 是 ， 第 一 列 列 出 从 第 一 个 数据 源 获 得 的 引用 ， 第 二 列 列 出 从 第 
二 个 数据 源 获得 的 表示 方式 。 对 索引 表 做 连接 ， 可 以 结合 两 个 来 源 ， 以 获得 正确 的 结果 。 
例如 ， 图 3-4 展现 了 两 个 数据 源 的 一 个 索引 表 ， 这 两 个 数据 源 分 别 描述 了 国家 的 不 同 
属性 。 
Country GDPs Country Water Access 


Congo, Republic ofthe Congo (Dem. Rep.) 
Korea, South South Korea 


Isle of Man Man, Isle of 
Burma Myanmar 
Virgin Islands Virgin Islands of the U.S. 





图 3-4 不 同 数据 库 经 常用 不 同 的 名 字 来 表示 相同 的 实体 ， 索 引 表 提供 了 不 同名 字 之 间 的 对 应 关系 


显然 ， 主 要 问题 在 于 当 数 据 量 很 大 时 如 何在 应 用 中 构建 这 样 的 索引 表 。 我 们 将 在 第 7 
章 讨 论 引用 自动 消解 的 问题 。 
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参考 文献 注释 


全 局 视图 方式 从 早期 的 数据 集成 系统 (例如 ，Multi-Basel366]) 以 及 后 来 的 一 些 系统 
({128, 230, 281, 533]) 中 就 有 使 用 。 局 部 视图 由 Information Manifold System| 381 | 提 
出 ， 并 被 [199，361 ] 使 用 。GLAYV 由 [235 ] 提 出 ， 并 作为 数据 交换 系统 (参见 第 10 章 ) 的 
主要 形式 。 实 际 上 ，GLAYV 本 质 上 是 元 组 生成 依赖 [7 |] 的 形式 化 描述 ， 因 此 一 些 完整 性 约 
束 理论 可 以 应 用 到 数据 集成 和 交换 中 。 多 模式 映射 语言 的 发 展 促使 形式 化 之 间 的 比较 
[373, 379, 555], Alexe[ 24 ] 举 例 描述 了 构建 GLAV 模式 映射 的 系统 。 

访问 模式 限制 在 Rajaraman[ 488 ] 中 首次 被 提 及 ， 他 们 考虑 当 视 图 覆盖 访问 模式 的 约束 
时 ， 使 用 视图 计算 查询 。 使 用 视图 寻找 查询 的 等 价 改写 时 ，[398 ] 提 出 的 改写 长 度 的 限制 
( 即 查询 中 子 目 标的 个 数 ) 将 不 复 存 在 。 相 反 ， 他 们 提出 了 一 个 新 的 限制 ， 即 子 查询 的 个 
数 与 查询 中 变量 个 数 之 和 。Kwok 和 Weld[361] 提出， 如 果 我 们 在 访问 模式 限制 下 寻找 一 
个 查询 的 最 大 包含 改写 ， 那 么 改写 的 长 度 就 没有 限制 。Duschka 等 人 [197，200 1] 提出 递归 
查询 计划 生成 所 有 确定 结果 ，Friedman 和 Weld[234] 以 及 Lambrecht 等 人 [365 ] 描述 了 如 何 
优化 递归 查询 计划 。Manolescu[ 228 ] 展 现 了 传统 的 System-R 类 型 查询 优化 使 用 模式 限制 的 效 
果 。Levy[381] 提 出 一 个 更 加 复杂 的 访问 模式 限制 模型 ， 除 了 规范 输入 以 外 ， 还 需要 规范 输 
出 。 如 果 数 据 源 包 含 一 个 以 上 能 力 记 录 (capability record) ， 他 们 发 现 找到 一 个 可 执行 的 计划 
是 一 个 NP 完全 问题 。 

中 介 模 式 中 的 完整 性 约束 及 其 在 寻找 确定 结果 时 的 作用 由 Duschka[ 197，199 ] 首 先 在 
LAV 中 讨论 。 研 究 表明 ， 即 使 中 介 模 式 上 存在 函数 依赖 和 全 依赖 ， 也 可 能 找到 查询 的 所 有 
确定 结果 。 我 们 的 例子 全 部 取 自 [197]。Cali[ 104] 考 虑 了 CAV 的 完整 性 约束 ， 他 们 认为 
在 有 键 约束 和 包含 依赖 的 前 提 下 ， 可 能 找到 查询 的 所 有 确定 结果 。 

Motro[ 446 ] 研 究 了 数据 库 的 结果 完备 性 问题 。Etzioni 等 人 [213 ] 介 绍 了 一 种 信息 收集 
代理 场景 的 本 地 完备 性 概念 及 其 一 些 基 本 特性 。 我 们 描述 的 完备 性 算法 基于 [378 ] ， 描 述 
了 完备 性 判定 问题 可 以 以 更 新 查询 的 独立 性 判定 问题 形式 表示 [89，202，203，382] ， 这 
个 问题 可 以 被 规约 成 一 个 包含 检查 问题 。Razniewski 和 Nutt[ 495 ] 扩 展 局 部 完备 性 框架 ， 除 
了 能 表达 部 分 关系 以 外 ， 还 能 表达 局 部 完备 性 。Fan[ 223 ] 讨 论 了 在 主 数据 (完备 而 且 正 
确 的 数据 ) 存在 环境 下 查询 完备 性 问题 。Floresecu[ 227 ] 描述 了 通过 一 个 元 组 在 一 个 数据 
源 中 的 可 能 性 表达 完备 性 程度 的 规范 。 概 率 模式 映射 现在 再 次 受到 关注 ， 我 们 将 在 第 13 
章 中 进行 更 深入 的 讨论 。Naumann[ 454] 提 出 了 数据 源 和 查询 结果 完备 性 的 量化 技术 。 
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字符 串 匹 配 





字符 串 匹 配 用 来 寻找 表示 真实 世界 中 同一 实体 的 字符 串 。 比 如 ， 一 个 数据 库 中 的 字符 
$ David Smith 与 男 一 数据 库 中 的 字符 串 David R. Smith 表示 同一 个 人 。 类 似 地 ， 字 符 
$ 1210 W. Dayton St, Madison WI 以 及 串 1210 West Dayton, Madison WI 53706 表 
示 同 一 物理 地 址 。 

字符 串 匹 配 在 许多 数据 集成 任务 中 扮演 重要 的 角色 ， 比 如 模式 匹配 、 数 据 匹 配 和 信息 
抽取 等 任务 。 因 此 ， 这 一 章 我 们 深入 讨论 这 个 问题 。4. 1 节 定 义 了 字符 串 匹配 问题 。4. 2 
节 描 述 了 一 些 常用 的 相似 度 度量 方法 ， 这 些 相似 度 度量 方法 可 以 用 于 计算 任意 两 个 给 定 字 
符 串 的 相似 度 得 分 。 最 后 ，4. 3 节 讨 论 了 如 何 将 这 些 度 量 方法 高 效 地 应 用 于 大 规模 字符 串 
匹配 。 


4.1 问题 描述 


本 节 要 解决 的 问题 如 下 所 示 。 给 定 两 个 字符 串 的 集合 X 和 了 ， 和 希望 寻 找 所 有 的 字符 串 对 
(x, y)， 其 中 xeX ,yeY, 并 且 x Ay 表示 真实 世界 中 的 同一 实体 。 我 们 称 这 样 的 字符 串 对 


为 匹配 。 图 4-1a、b 是 两 个 包含 人 名 的 样 ”Setx Set Y Matches 
例 数据 库 。 图 4-1c 是 它们 的 匹配 结果 。 x1=Dave Smith yı=David D. Smith (x4, y4) 
比如 ， 第 一 个 匹配 Cas y) AARRE 六 -Dan sm OAN Smin Caya 
$ Dave Smith 和 David D. Smith 表 示 真 实 a) 数据 库 的 匹配 b) 数据 库 的 匹配 c) 表示 
LPR —T Ave 图 4-1 人 物 姓名 示例 

解决 匹配 问题 面临 两 个 主要 的 挑战 : 


准确 性 和 可 扩展 性 。 实 现 字符 串 匹 配 的 准确 性 之 所 以 困难 是 因为 表示 现实 世界 同一 实体 的 
字符 串通 常 是 不 同 的 。 造 成 这 个 情况 的 原因 包括 打 错 字 和 OCR 错误 (kein, David Smith 
被 错 拼 成 或 被 计算 机 错误 识别 为 Davod Smith)、 格 式 不 同 (比如 ，10/8/2009 和 Oct 8, 
2009) 、 自 定义 的 缩写 、 字 符 串 的 简写 或 省 略 (比如 ，Daniel Walker Herbert Smith 和 
Dan W. Smith) 、 不 同 的 名 称 或 别名 (比如 ，William Smith 和 Bill Smith) 以 及 字符 串 
中 部 分 子 串 的 顺序 不 同 (Hin, Dept. of Computer Science, UW- Madison 和 Com- 
puter Science Dept. ，UW-Madison)。 此 外 ， 在 某 些 情况 下 ， 数据 源 没有 足够 的 信息 表 
明 两 个 字符 串 是 否 表示 真实 世界 中 的 同一 实体 ( 比如， 试图 判断 在 两 个 不 同 出 版 物 中 提 到 
的 两 个 作者 是 否 为 同一 个 人 ) 。 

为 了 解决 准确 性 挑战 ， 一 般 的 解决 方法 是 定义 两 个 字符 串 x A y 的 相似 度 度量 *， 返 
回 一 个 在 范围 (0, 1] 的 得 分 。 得 分 越 高 ，x My 匹配 的 可 能 性 越 高 。 如 果 s(x, y) Se, 
我 们 说 x y 匹配 ， 其 中 上 是 预先 设 定 的 阔 值 。 目 前 已 经 提出 了 许多 相似 度 度 量 方法 ， 我 
们 将 在 4. 2 节 讨 论 一 些 主要 的 相似 度 度量 方法 。 

第 二 个 挑战 是 如 何 将 相似 度 度量 用 于 大 规模 字符 串 计 算 。 因 为 字符 串 的 相似 度 度 量 方 
法 是 直接 应 用 于 两 个 字符 串 对 的 ， 为 集合 X 和 和 集合 Y 中 的 任何 一 对 字符 串 (x, y) 求 相似 
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BE s(x, y) 的 时 间 复 杂 度 是 平方 级 的 ， 这 在 实践 中 是 不 可 行 的 。 为 了 解决 这 个 挑战 ， 一 些 
方法 只 对 最 有 可 能 匹配 的 对 计算 相似 度 度量 ;(x，y)。 我 们 在 4.3 节 讨 论 这 些 方法 的 主要 
思想 。 


4.2 相似 度 度量 


目前 已 提出 许多 度量 方法 用 于 匹配 字符 串 。 相 似 度 度量 将 一 对 字符 串 (x, y) 映射 为 
[0, 1] 区 间 内 的 一 个 数值 ， 这 个 数值 越 高 ， 意 味 着 x Aly 的 相似 度 越 高 。 术 语 距 离 (dis- 
tance) 和 代价 度量 (cost measures) 也 用 来 表述 相同 的 概念 ,不同 的 是 ， 它 们 用 较 小 的 值 
表示 较 高 的 相似 度 。 

广义 上 讲 ， 当 前 的 相似 度 度量 方法 主要 分 为 4 类 : 基于 序列 的 相似 度 度量 、 基 于 集合 
的 相似 度 度量 、 混 合 的 相似 度 度量 以 及 语音 度量 。 现 在 我 们 依次 描述 这 4 类 度量 方法 。 


4.2.1 基于 序列 的 相似 度 度量 


在 第 一 类 相似 度 度量 方法 中 ， 将 字符 串 看 做 是 字符 的 序列 ， 然 后 计算 将 一 个 字符 串 转 
换 为 另 一 个 字符 串 的 代价 。 我 们 从 一 种 称 为 编辑 距离 的 基本 度量 方法 开始 ， 然 后 考虑 更 精 
细 的 方法 。 


Hi HEHE 

编辑 距离 又 称 为 Levenshtein 距离 (Levenshtein Distance), d(x, y), th FEB x 转 
换 为 字符 串 y 的 最 小 代价 。 字 符 串 转 换 通 过 以 下 操作 实现 : 删除 一 个 字符 、 插 入 一 个 字符 
和 替换 一 个 字符 。 例 如 ， 将 字符 串 x = David Smiths 转换 为 字符 串 y = Davidd Simth 的 
代价 是 4， 需 要 执行 的 操作 依次 是 : 插入 一 个 字符 d (在 David 后 ) ， 用 字符 i 替换 字符 
m, HFI m 替换 字符 i， 删除 x 的 最 后 一 个 字符 s。 

不 难看 出 ， 将 x 转换 为 y 的 最 小 代价 和 将 y 转换 为 x 的 最 小 代价 是 相同 的 。 因 此 ， 
d(x, y) AMF x My 是 定义 良好 的 ， 且 是 对 称 的 。 

直观 上 ， 编 辑 距 离 反 映 的 是 人 们 可 能 会 犯 的 各 种 编辑 错误 ， 比 如 插入 了 一 个 额外 的 字 
符 (Mn David 多 写 了 d, Æ T Davidd ) ， 或 者 两 个 字符 互 换 (如 Smith 错 写成 了 
Simth) 等 。 因 此 ， 编 辑 距离 越 小 ， 两 个 字符 串 越 相似 。 

编辑 距离 函数 d(x, y) 可 以 通过 以 下 方式 转换 成 相似 度 函 数 s(x, y): 

d(x,y 

max( nan ian ) 
例如 ，David Smiths 和 Davidd Smith 的 相似 度 得 分 为 : 


s( David Smiths,Davidd Smith) = 1 - 


s(x,y) =1- 


4 
max(12,12) ` mT 


d(x, y) 的 值 可 以 用 动态 规划 来 计算 。 令 x =xxye,, YENY Yas FP, x; Aly, 
是 组 成 字符 串 x 与 y 的 单个 字符 。 令 dli, j) 表示 字符 串 x1x,…%; 和 字符 串 ij …y (分 
别 表示 字符 串 x Al y 的 前 i 个 字符 和 前 j 个 字符 组 成 的 子 串 ) 的 编辑 距离 。 

设计 动态 规划 算法 的 关键 是 要 建立 递归 公式 ,使 得 可 以 从 之 前 的 a 值 计 算 dCi, j) 的 
值 。 图 4-2a 是 为 上 面 的 例子 计算 d 值 的 递归 公式 。 为 了 理解 这 个 公式 ， 我们 可 以 用 以 下 4 
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种 方式 将 字符 串 xx 转换 为 字符 串 的 人 1) WR x = 那么 wiXa"…%i-1 转 换 为 
Vya Yj- JaN Xi 复制 到 yj;s 2) 如 果 Xi 天 Ji， 将 xixa…%i -1 转换 为 Via Sj- 然后 将 Xi $F 
换 为 Yis 3) 删除 x;， 然后 将 xax ti PRAN Iz Iy 4) 将 xx 转换 为 JI1y2 Ji-15 
然后 插入 yj dli, J) 是 以 上 转换 中 的 最 小 代价 值 。 图 4-2b 合并 了 4-2a 的 前 两 行 ， 简 化 
了 公式 。 
(i-1, 广 1) 如 果 %=y /复制 | (AHAHA) +el y) 11 复制 或 替换 
dli j=min jd(F1, 广 1)+1 ”如 果 X<>y /替换 d(i, )=min {as Jei // 删除 x; 


aH, ))+1 1 删除 x; 1)+1 k HAY 


dli j-1)+1 MAYI C(x, y)=0 如 果 X%=yi 
1 否则 


a) 用 动态 规划 计算 字符 串 x 和 编辑 距离 的 递归 公式 b) 公式 的 简化 形式 
图 4-2 
图 4-3 给 出 了 一 个 用 简化 的 公式 计算 编辑 距离 的 例子 。 图 中 以 字符 串 x = dva 和 y= 
dave 为 例 说 明 两 字符 串 编辑 距离 的 计算 。 先 从 图 4-3a 的 矩阵 开始 ，x; EAM, y 在 上 方 。 


注意 ,我 们 在 * Aly 的 开头 增加 了 两 个 空 字符 x。 和 y。， 以 便 简 化 计算 过 程 。 具体 地 ， 通 过 
设置 4(i, 0) =i 和 d(0, j) =j 快速 地 填 满 第 一 行 和 第 一 列 。 





Yo J Yo Ya Ya Yo A Yo Ya Ya 

x=d-va 

Lhd 

y=dave 

用 a 代替 e 

插入 a( 在 d 的 后 面 ) 

a) 填充 了 几 个 单元 格 b) 填充 完整 的 矩阵 c) 通过 b) 部 分 明显 的 箭头 找到 将 
后 的 动态 规划 矩阵 dva 转 换 为 dave 的 编辑 操作 序列 


图 4-3 用 图 4-2b 中 的 动态 规划 公式 计算 dva 和 dave 的 编辑 距离 


现在 可 以 用 图 4-2b 中 的 公式 来 填充 矩阵 中 剩 下 的 位 置 。 例 如 ， 根 据 公 式 ，d(1，1) = 
minjO+0, 1+1, 1+1} =0。 因 为 这 个 值 是 通过 d(0, 0) +0 获得 的 ， 所 以 我 们 从 单元 格 
(1, 1) 到 单元 格 (0，0) 画 一 个 箭头 。 同 样 ，&1，2) =1 ( 见 图 4-3a)。 图 4-3b 显示 了 
完整 填充 后 的 矩阵 。* Al y 的 编辑 距离 可 以 看 到 是 右 下 角 单 元 格 (3, 4) 中 的 数值 2。 

除了 计算 编辑 距离 外 ， 算 法 还 可 以 按照 箭头 显示 出 编辑 操作 的 序列 。 在 这 个 例子 中 ， 因 
为 箭头 从 (3, 4) 到 (2, 3) 沿 对 角 线 走 ， 所 以 我 们 知道 x, 〈 字 符 a) 已 被 复制 或 被 ys 
(字符 e) 替换 。 箭 头 继续 沿 对 角 线 走 ， 从 (2, 3) 到 (1, 2)。 因 此 可 以 知道 ， x，( 字 符 
v) 已 被 复制 或 被 % (PAV) 替换 。 接 下 来 ， 箭 头 水 平 走 ， 从 (1，2) 到 (1，1) 。 这 意味 
着 有 一 个 空位 插入 到 % 中 并 且 与 字符 串 y 中 的 字符 a 对 齐 〈 这 意味 着 一 个 插 和 人 操作) 。 当 到 
达 单元 格 (0, 0) 时 ， 这 个 过 程 终止 。 图 4-3e 是 对 整个 转换 过 程 的 描述 。 

编辑 距离 的 计算 代价 是 0( | xlly | ) 。 实 际 上 , x My 的 长 度 往往 大 致 相同 ， 因 此 我 们 
通常 认为 计算 代价 为 平方 级 。 


Needleman- Wunch JZE 
Needleman- Wunch 度量 是 对 上 面 介绍 的 Levenshtein 距离 的 一 般 化 。 具 体 地 ， 它 通过 给 两 
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个 输入 字符 串 的 每 对 对 齐 的 字符 设置 一 个 对 齐 得 分 ， 从 中 选择 得 分 最 高 的 对 齐 方式 作为 结 
果 。 两 个 字符 串 x A y 的 对 齐 指 * 中 
的 字符 和 y 中 的 字符 在 允许 空格 的 情 
况 下 字符 对 之 间 互 相对 应 的 集合 。 例 
如 , 图 4- 4a 是 字符 串 x = dva 和 





y = deeve 的 一 个 对 齐 方式 ， 其 中 d 和 人 

d 对 应 ，v 和 v 对 应 ，a 和 e 对 应 。 注 deeve 

意 4% f, 2 a) 字符 串 x=dva 和 )=deeve b) 给 每 对 字符 分 配 一 个 得 分 的 
意 在 进行 对 应 时 ， 字 符 串 “被 插入 了 ee eet 评分 矩阵 以 及 空位 惩罚 c。 


长 度 为 2 的 空位 ， 因 此 y 中 的 两 个 字 
符 ee 没有 x 中 的 字符 进行 对 应 。 图 4-4 Needlemn- Wunch 函数 示例 

两 个 字符 串 之 间 对 应 的 得 分 通过 得 分 矩阵 和 空格 惩罚 来 计算 。 德 阵 为 每 一 对 字符 的 对 应 
在 得 分 矩阵 中 设置 一 个 得 分 ， 并 且 人 允许 有 扣 分 。 图 4-4b 是 一 个 得 分 矩阵 的 例子 ， 在 这 个 例 
子 中 ， 两 个 相同 的 字符 对 齐 得 分 为 2， 不 同 的 字符 对 齐 得 分 为 -1。 长 度 为 1 的 空格 会 有 一 个 
值 为 cv 的 扣 分 惩罚 (在 图 4-4 F, o 设置 为 1) 。 如 果 连 续 有 上 个 空格 ， 则 扣 ke, 分 。 

字符 串 之 间 一 个 对 齐 得 分 是 每 个 对 齐 的 字符 对 的 得 分 之 和 再 减 去 空格 产生 的 扣 分 。 例 
如 ， 图 4-4a 中 的 得 分 为 2(d 与 d 对 齐 ) +2(v 与 V 对 齐 ) -1(a 与 e 对 齐 ) -2( 长 度 为 2 的 
空格 惩罚 ) =1。 这 是 字符 串 x 与 y 的 最 佳 对 齐 方式 (也 就 是 说 ， 这 是 最 高 的 得 分 ) 。 这 就 
是 两 个 字符 串 x Al y 的 Needleman- Wunch 得 分 。 

如 前 所 述 ，Needleman- Wunch 度量 方法 从 3 个 方面 对 Levenshtein 距离 进行 一 般 化 。 第 
一 ， 它 计算 了 相似 度 得 分 而 不 是 距离 值 。 第 二 ， 它 使 用 得 分 和 矩阵 对 编辑 代价 进行 一 般 化 ， 
允许 更 细 粒 度 的 得 分 模型 。 例 如 ， 字 母 o 和 数字 0 在 实际 中 通常 会 被 混淆 (比如 ，OCR 
(光学 字符 识别 ) 系统 ) 。 因 此 当 0 和 o 在 两 个 字符 串 的 匹配 中 被 对 齐 时 ， 这 个 字符 间 的 
对 齐 得 分 应 该 比 字母 a 与 数字 0 之 间 对 齐 得 分 高 。 还 有 ， 当 匹配 生物 信息 学 中 的 序列 时 ， 
不 同 的 氨基 酸 对 有 不 同 的 语义 距离 。 第 三 ，Needleman- Wunch 度量 将 插入 和 删除 操作 用 空 
格 进行 一 般 化 ， 并 将 每 个 这 样 的 操作 的 代价 从 1 一 般 化 为 任意 值 cv。 

Needleman- Wunch 度量 的 得 分 函数 s(x，y) 使 用 图 4-5a 所 示 的 递 推 公式 利用 动态 规 
划算 法 计算 。 

注意 ， 这 里 有 3 点 不 同 于 图 4-2b 中 对 编辑 距离 的 计算 。 第 一 ， 计 算 的 是 最 大 而 不 是 
最 小 。 第 二 ， 在 递 推 公式 中 利用 得 分 矩阵 (x, y) 而 非 编 辑 操作 的 单位 代价 。 第 三 ， 利 
用 空格 惩罚 c 而 非 空 格 的 单位 代价 。 当 初始 化 这 个 矩阵 时 ， 必 须 设 置 
s(i, 0) = -ie,, s(0, j) = -jc。( 不 同 于 编辑 距离 中 的 i Aj) o 

图 4-5b 显示 了 针对 x = dva Fil y = deeve 利用 图 4-4b 中 的 得 分 矩阵 和 空格 惩罚 完全 填 
充 好 的 和 矩阵。 图 4-5c 显示 了 通过 图 4-5b 矩阵 中 的 篆 头 找到 的 最 佳 对 齐 方 式 。 


Affine Gap RA 
Affine Gap 度量 是 对 前 面 介绍 的 Needleman- Wunch 度量 的 一 般 化 ， 它 能 更 好 地 处 理 有 
较 长 空格 的 情况 。 比 如 ， 让 我 们 考虑 匹配 x = David Smith 和 y = David R. Smith 的 情况 。 
Needleman- Wunch 度量 匹配 的 效果 很 好 ， 只 要 在 David 右边 增加 一 个 长 度 为 2 的 空格 ， 用 
R. 填充 即 可 。 然 而 ， 如 果 匹 配 x = David Smith 和 y= David Richardson Smith, ， 如 
图 4-6a 所 示 ， 需 要 增加 长 度 为 10 的 空格 ， 因 为 空格 的 惩罚 较 高 ， 使 得 Needleman- Wunch 
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度量 无 法 达到 好 的 效果 。 比 如 ,假设 相同 字符 对 齐 得 2 分 ，cs 是 1 分 ， 则 Needleman- 
Wunch 度量 的 得 分 是 6 x2 -10 =2 ©, 


s(i-1, -1)+c(x, yj) 
s(i, j)=max 4 s(i-1, j)—Cg 





s(i, j-1)—Cg 
d--va 
8(0, j)=-jcg | I 
s(i, 0)=—icg deeve 
a) 用 动态 规划 计算 相似 度 b) 利用 a) 得 到 dva 和 deeve c) 根据 b) 中 显示 的 箭头 找到 两 个 
得 分 的 递归 公式 的 动态 规划 矩阵 字符 串 的 最 优 比 对 方式 


图 4-5 Needleman-Wunch 函数 示例 


实际 上 ， 空 格 的 长 度 通常 大 于 1。 因 此 ， 对 空格 中 的 每 个 位 置 都 使 用 相同 的 惩 昼 在 某 
种 程度 上 对 具有 较 长 空格 的 情况 不 公平 。Affine Gap 度量 通过 区 分 开始 的 那个 空位 和 接 下 
来 的 连续 空位 的 代价 来 解决 这 个 问题 。 从 形式 上 ， 该 度量 方法 对 每 个 长 度 为 上 的 空格 分 配 
的 代价 为 cv + (上 -1)c， 其 中 ，c, 是 第 一 个 空格 的 代价 ，c, 是 连续 空格 的 代价 〈 其 余 上 -1 
个 空格 的 代价 ) 。e 的 代价 小 于 c,， 从 而 减少 了 对 较 长 空格 的 惩罚 。 继 续 以 图 4-6a 为 例 ， 
WR c, =1 并 且 c, =0.5， 则 最 后 的 总 得 分 为 6 x2 -1 -9 x0.5 =6.5”。 这 个 得 分 要 远 高 于 
使 用 Needleman- Wunch 度量 得 到 的 2 分 。 

图 4-6b 是 Affine Gap 度量 的 计算 公式 。 导 出 这 些 公式 非常 麻烦 。 有 既然 我 们 现在 对 一 个 
起 始 空格 的 惩罚 和 连续 空格 的 惩罚 不 同 ， 那 么 在 每 个 阶段 ， 对 于 动态 规划 矩阵 中 的 字符 串 
x 与 字符 串 y 的 两 个 子 串 的 Affine Gap 度量 (i, 7) ， 我 们 维护 3 个 值 : 

e MG, j): 4%, 5 y MINS x, x, A yy; 最 高 得 分 。 

e J,(i, j): x; 与 空格 对 齐 时 的 最 高 分 。 

e Li, j): yj 与 空格 对 齐 时 的 最 高 分 。 
s(i, j)=max {M (i, j), hx (i j), yD} 

M (i-1, j-1) +0 (Xs y) 

Mii, /)=max {sete (Xi Yi) 


mill aii PAN 
David Richardson Smith Ii, j)=max { nee a 
tg {i i, j-1)- Co 
6 个 字符 10 个 字符 6 个 字符 Ii, j)=max } (i, j-1)-c, 
a) ABER HL TF RRA b) Affine Gap 度 量 的 递归 公式 


图 4-6 


XFIT i 和 7 的 Affine Gap 度量 s(i, j) 是 这 3 个 得 分 中 的 最 大 值 。 
为 了 得 到 上 述 递归 公式 ， 我 们 对 代价 函数 做 了 以 下 的 假设 。 假 设 在 一 个 最 优 的 对 齐 方案 





© Needleman- Wunch 度量 的 得 分 应 是 12 x2 - 10 =14。 一 -一 译 者 注 
© 总 得 分 应 为 12 x2 -1 -9 x0.5 =18.5。 一 一 译 者 注 
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中 ， 不 会 在 一 个 删除 操作 后 紧 跟着 执行 一 个 插入 操作 ， 也 不 会 在 一 个 插入 操作 后 紧 跟着 一 


个 删除 操作 。 这 意味 着 不 会 出 现 图 4-7a、b 描 述 的 。 9 入 4 入 ee XX 
情况 。 为 了 确保 这 个 性 质 ， 可 以 设置 代价 (e+ yy yy neak 


c,) 低 于 得 分 矩阵 中 两 个 不 同 字符 对 齐 的 最 低 分 。 a) b) c) 
在 这 种 情况 下 ， 图 4-7c 将 会 比 图 4-7a、b 得 到 较 高 图 4-7 BEEE M KAET E RE, 
的 得 分 。 c) 的 得 分 通常 会 高 于 a) Mb) 


现在 解释 下 如 何 推导 图 4-6b 中 M(i, j), LCi, j) ALG, j) 的 公式 。 图 4-8 解释 如 
何 推导 MC, j)o ARZIR x 与 7) 对齐 的 情况 ( 见 图 4-8a)。 即 %…x;_1 与 7% …yj-1 对 齐 。 
这 种 情况 发 生 只 可 能 有 3 种 方式 ， 如 图 4-8b、d 所 示 ，x -和 % -1 对齐 ，x -和 空格 对 齐 以 
及 yj-! 和 空格 对 齐 。 这 3 种 方式 造成 了 图 4-6b 中 公式 M (i, j) 的 3 种 情况 。 


X1,… Xj x; 
| = M(iH-1, +1) + elx, y) 


Yie- Yj-1 Yi 
b) 
Xie XL Xi pe Mag Xi 
| > IH, +1) + ex, y) 
Yr Y1 Yj YY Y ! 
a) c) 


X4--- Xi_1— Xi 
| > IAA, j1) + elx y) 
Yi- Vin yj 
d) 


图 4-8 图 4-6b 中 MM(i, j) 的 公式 的 推导 


图 4-9 显示 图 4-6b PARL CG, 的 推导 过 程 。 这 个 公式 考虑 x, 与 空格 对 齐 的 情 
况 ( 见 图 4-9a) 。 这 种 情况 发 生 只 可 能 有 3 种 方式 ， 如 图 4-9b、c、d 所 示 ，xi -和 7 对 齐 ， 
2%_1 和 空格 对 齐 以 及 y 和 空格 对 齐 。 前 两 种 方式 造成 了 图 4-6b 中 的 两 种 情况 。 第 三 种 情况 
不 会 发 生 ， 因 为 它 意味 着 一 个 删除 操作 之 后 紧 跟 着 插入 操作 。 这 与 先前 提 到 的 假设 是 矛盾 
的 。 图 4-6b PL (i, j) 公式 的 推导 也 是 类 似 的 方式 。Affine Gap 度量 的 计算 复杂 度 依然 是 
Oo( |xlly|)。 


X1... Xi1 Xi 


| > M(H+1, j)—-co 
Yi Yj- 一 
b) 
X4- Xi-1 Xi Xq- Xi1 Xi 
| > (FF1, j)-c, 
Y1% Yj-1 Yj— Yi YjYj— 一 
a) c) 


X1… X4- Xi 


Yie- YY 一 
d) 


图 4-9 图 4-6b PL (i, j) 的 公式 的 推导 
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Smith- Waterman JZ E 

前 面 的 度量 方式 考虑 两 个 字符 串 之 间 的 全 局 比 对 ， 即 试图 将 x 中 所 有 字符 与 y 中 所 有 
字符 进行 匹配 。 

全 局 比 对 在 有 些 情 况 下 并 不 适用 。 比 如 ， 考 虑 两 个 字符 串 Prof. John R. Smith, 
Univ of Wisconsin 和 John R. Smith，Professor。 这 时 基于 全 局 比 对 的 相似 度 得 分 是 相 
对 较 低 的 。 在 这 种 情况 下 ， 我 们 真正 想 要 的 是 x 和 y 中 最 相似 的 两 个 子 字 符 串 ， 并 将 该 子 
字符 串 的 得 分 作为 x My 的 得 分 返回 。 例 如 ， 我 们 打算 将 John R. Smith 作为 两 个 字符 串 
中 最 相似 的 子囊， 这 意味 着 在 忽略 某 些 前 缀 (如 Prof. ) 和 后 级 (如 x 中 的 Univ of Wis- 
consin fil y 中 的 Professor) 后 对 字符 串 进行 比 对 。 我 们 称 这 种 方式 为 局 部 比 对 。 

Smith- Waterman 度量 通过 对 Needleman- Wunch 度量 引入 两 点 关键 的 变化 来 找到 匹配 子 
$. HJ, Smith-Waterman 度量 方法 允许 从 字符 串 的 任意 位 置 重新 开始 进行 匹配 (不 再 限 
制 为 从 第 一 个 字符 的 位 置 开 始 ) 。 重 新 开始 匹配 由 图 4-10a 递 推 公式 的 第 一 行 体现 。 直 觉 
上 ， 如 果 全 局 匹配 得 分 降 至 0 以 下 ， 那 么 第 一 行 起 到 忽略 前 缓 然 后 重新 进行 匹配 的 作用 。 
类 似 地 ， 可 以 看 到 在 动态 规划 和 矩阵 的 第 一 行 和 第 一 列 都 是 0， 而 不 是 Needleman- Wunch 度 
量 的 动态 规划 矩阵 中 的 - ic。 和 jc。。 利 用 这 个 递 推 公式 对 字符 串 avd 和 字符 串 dave 进行 
相似 度 度量 可 以 得 出 如 图 4-10b 所 示 的 矩阵 。 


0 
ath nome , +1) + e(xi, yj) 





s(i-1, j)- Cg 
s(i, -1)- Cg 
s(0, j)=0 
s(i, 0)=0 
a) 利用 动态 规划 计算 相似 度 b) 利用 a) 中 的 公式 求解 avd 和 dave 
分 数 的 递归 公式 相似 度 分 数 的 动态 规划 矩阵 


图 4-10 Smith- Waterman 度量 示例 


第 二 个 关键 的 变化 是 在 利用 递 推 公式 计算 出 矩阵 之 后 ， 算 法 从 矩阵 中 最 大 值 的 单元 (在 
上 面 的 例子 中 是 4) 开始 根据 箭头 回 滴 ， 而 不 是 从 和 矩阵 的 右 下 角 单 元 开始 (在 上 面 的 例子 中 
和 矩阵 右 下 角 是 3) 。 这 个 变化 有 效 地 忽略 了 一 些 后 级 ， 这 些 后 缀 使 得 使 用 它们 进行 匹配 之 后 两 
个 字符 串 不 是 最 优 的 匹配 。 当 遇 到 单元 中 的 值 为 0 (此 处 代表 着 比 对 的 开始 ) t, ey 
束 。 在 上 面 的 例子 中 ， 我们 可 以 找到 在 字符 串 avd 和 字符 串 dave 的 最 佳 局 部 匹配 是 av. 


Jaro fF it 
Jaro 度量 主要 用 来 比 对 短 字符 串 ， 比 如 ， 人 的 姓名 。 给 定 两 个 字符 串 x 和 yy， 通 过 如 
下 方法 计算 它们 的 Jaro 得 分 : 
© 寻找 字符 串 x 和 字符 串 y 的 公共 字符 x; 和 y， 使 得 x; My, WAL x, =y 并且 |i-j| < 
min| |x| ,|y| 1X2。 直 觉 上 ， 公 共 字 符 是 字符 相同 且 在 两 个 字符 串 中 位 置 相近 
的 。 不 难看 出 ，x 具有 的 公共 字符 与 y 具有 的 公共 字符 的 数目 相同 ， 记 为 c。 
© 比较 x 的 第 i 个 公共 字符 和 y 的 第 i 个 公共 字符 ， 如 果 它 们 不 相同 ， 我 们 将 进行 一 
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次 换 位 ， 令 换 位 次 数 为 1。 
。 如 下 计算 Jaro 得 分 : 
jaro(x,y) = 1/3[c/|x|+c/|y| +(e -t/2)/c] 

下 面 使 用 几 个 例子 说 明 Jaro 得 分 的 计算 及 其 含义 。 让 我 们 考虑 字符 串 x =jon, y= 
john 的 情况 。 显 然 ，c =3。 字 符 串 x 的 公共 字符 序列 是 jon ， 字 符 串 y 的 公共 字符 序列 是 
jon。 因 此 ,不 需要 换 位 ，t =0。 因 此 ，jaro(x, y) =1/3(3/3 +3/4 +3/3) =0.917。 相 反 ， 
基于 编辑 距离 的 相似 度 得 分 是 0. 75 。 

现在 假设 字符 串 x =jon， 字 符 串 y =ojhn。 这 里 ， 字 符 串 x 的 公共 字符 序列 是 jon ，y 的 公 
共 字 符 序 列 是 ojn。 因 此 ，t =2， 相 应 的 Jaro(x、y) =1/3(3/3 +3/4 + (3 -2/2)/3) =0. 81。 

计算 Jaro 距离 的 代价 是 OC |x| |y | ) ， 主 要 是 寻找 公共 字符 的 代价 。 


Jaro- Winkler Fi 
Jaro- Winkler 度量 处 理 两 个 具有 相同 前 级 、 很 有 可 能 匹配 的 字符 串 在 Jaro 度量 下 得 分 
较 低 的 情况 。 特 别 地 ， 这 种 度量 需要 两 个 参数 : 两 个 字符 串 间 最 长 公共 前 缀 的 长 度 PL 和 
这 个 前 级 的 权重 PW, Jaro- Winkler 度量 使 用 以 下 公式 计算 ; 
Jaro-winkler(x,y) = (1 - PL* PW) * jaro(x,y) + PL x PW 


4.2.2 基于 集合 的 相似 度 度量 


前 面 的 度量 方法 将 字符 串 看 做 字符 的 序列 。 现 在 ， 我 们 将 字符 串 看 做 词 项 (token) 
的 集合 或 包 ， 并 使 用 集合 有 关 的 性 质 计 算 相 似 度 得 分 。 

根据 输入 字符 串 产生 词 项 的 方法 有 很 多 。 较 为 常见 的 方法 是 考虑 字符 串 由 空格 分 开 的 
单词 和 词根 组 成 。 通 常 的 保留 词 (如 the, and 和 of) 被 排除 在 外 。 比 如 ， 给 定 字 符 串 
david smith ， 我 们 根据 它 产 生词 项 的 集合 }david，smith | 。 

另 一 种 常见 的 词 项 类 型 是 4-grams。9-grams 是 字符 串 长 度 为 gq WEB. kin, 字符 串 
david smith 的 全 部 3- grams 集合 是 | ##d, #da, dav, avi, =, ith, h##, th#!, 
Bh, RER RARE WM YAS TR PAE 3K HE 07 AY) 3- grams, 

本 节 将 讨论 若干 基于 集合 的 相似 度 度量 方法 。 人 参考 文献 注释 中 包含 文献 中 提 到 的 其 他 
一 些 方法 。 下 面 的 讨论 针对 词 项 的 集合 ， 但 这 些 度量 对 包 也 适用 。 


BBE 

& B, 和 B, 是 构成 字符 串 x My 的 词 项 的 集合 。 重 到 度量 (overlap measure) 计算 B, 
和 B, 中 相同 词 项 的 个 数 0(x, y) = |B AB, | 。 

假设 字符 串 x = dave， FP y=dav, 那么 x 的 所 有 2- grams 的 集合 B, = |#d, da, 
av, ve, e#} 。y 的 所 有 2-grams 的 集合 B, = {#d, da, av, v#}, Alli O(x, y) =3。 


Jaccard fF it 
继续 使 用 上 面 的 符号 ， 字 符 串 x A y 之 间 Jaccard 相似 度 得 分 是 J(x, y) = |B, NB, |/ 
|B.UB, | . 
再 次 考虑 x = dave, B,=|#d, da, av, ve, e#} 以 及 y=dav, B, = |#d, da, av, 
v#} 的 情况 。 那 么 ,J(x, y) =3/6。 
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TF/IDF fF et 


这 种 度量 方法 使 用 信息 检索 中 用 于 寻找 与 关键 字 查询 相关 的 文档 的 TFVIDF 得 分 。 这 种 
度量 背后 的 直觉 是 如 果 两 个 字符 串 有 相同 的 可 区 分 项 ， 则 它们 是 相似 的 。 比 如 ,考虑 3 个 字 
符 串 x = Apple Corporation,CA, y=IBM Corporation ,CA， 以 及 z=Apple Corp。 如 果 使 
用 编辑 距离 或 者 Jaccard 度量 ， 我 们 将 匹配 字符 串 x 和 y， 因 为 在 这 两 种 度量 方式 下 字符 串 之 
间 的 相似 度 得 分 s(x，y) 要 高 于 s(x，z)。 然 而 ，TF/IDF 度量 可 以 区 分 出 Apple 是 字符 串 中 
可 区 分 的 词 ， 而 Corporation 和 CA 是 更 常见 的 词 ， 因 此 将 准确 地 匹配 字符 串 x Fz. 
当 讨 论 TF/IDF 度量 时 ,假设 待 匹配 的 字符 串 组 成 一 个 字符 串 集合 。 图 4-11a 是 3 个 
字符 串 x=aab、y=ac 和 z=a 的 集合 。 这 个 集合 中 的 每 个 元 素 都 被 转换 成 一 个 词 袋 〈 词 
的 集合 ) 。 在 信息 检索 的 术语 中 ， 这 些 词 袋 称 为 文档 。 比 如 ， 将 字符 串 x = aab 转换 成 文档 
B,={a, a, b}。 
现在 ， 用 下 面 的 方法 计算 词 频 (Term Frequency, TF) 得 分 和 北向 文档 频率 (Inverse 
Document Frequency, IDF) 得 分 。 
。 对 于 每 个 单词 和 文档 4， 在 文档 d 中 单词 1 的 词 频 u(t, d) 是 单词 i 在 文档 4 中 
出 现 的 次 数 。 比 如 ，a 在 字符 串 % 中 出 现 了 2 次 , f(a, x) =2。 

o 对 于 每 个 单词 :+， 它 的 逆向 文档 频率 df) 是 集合 中 的 文档 总 数 与 包含 单词 i 的 文 
档 数 的 比值 。 这 个 定义 的 一 些 变种 也 经 常 使 用 。 比 如 ，a 在 图 4-11a 中 的 每 个 文档 
中 都 出 现 了 ， 因 此 idf(a) =3/3 =1。IDF 的 值 越 高 说 明 一 个 词 越 是 可 区 分 的 。 

图 4-11b 是 图 4-11a 的 例子 中 各 个 单词 与 文档 的 萎 和 idf 的 得 分 。 


tfa, x)=2 idf(a)=3/3=1 
tb, x)=1 idf(b)=3/1=3 
: idf(c)=3/1=3 


x=aab =œ B,={a, a, b} 

y=ac => By={a, c} a 

z=a => B,={a} tf(c, z)=0 

a) PRE BRERA TAR b) 计算 词 袋 的 TF 和 IDF 得 分 c) 得 分 用 来 计算 特征 向 量 
图 4-11 TF/IDF 度量 方法 


接 下 来 ,我 们 将 每 个 文档 d 转换 成 一 个 特征 向 量 w。 这 里 的 直 党 是 ， 两 个 具有 类 似 特 
征 向 量 的 文档 是 相似 的 。d 的 特征 向 量 对 于 每 个 单词 1 都 有 一 个 特征 值 ww(i) v) Æ TF 
和 IDF 得 分 的 函数 。 因 此 ， 特 征 向 量 w 中 包含 的 特征 数 与 集合 中 的 单词 数 一 样 多 。 

图 4-1lc 是 3 个 文档 BL, B, AB, 和 它们 相应 的 特征 向 量 v,、v, 和 v.。 在 这 个 图 中 ， 
我 们 使 用 相对 简单 的 方法 计算 特征 值 : v(t) =E, d) + idf(1)。 因 此 特征 向 量 v, 中 a 这 
个 单词 的 特征 值 v.(a) =2 : 1 =2。 

现在 准备 计算 任意 两 个 字符 串 p 和 4 之 间 的 TFAIDF 相似 度 得 分 。 令 了 是 所 有 单词 的 
集合 。 特 征 向 量 v 和 vw, 可 以 视 为 | 了 | 维 空间 中 的 向 量 。TKVIDF 得 分 可 以 通过 计算 这 两 个 
向 量 间 夹 角 的 余弦 得 出 : 





2 v(t) -v (t) 


VB . NAZOJ 
例如 ， 使 用 图 4-110 中 的 特征 向 量 w 和 v,， 图 4-11a 中 的 字符 串 * 和 y 的 TF/IDF 得 





s(p.q) = (4-1) 
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2x3 
fed xf? +3" 
从 式 (4-1) 中 不 难看 出 ， 如 果 两 个 字符 串 都 具有 一 些 不 常 在 其 他 字符 串 中 出 现 的 单 
词 ， 那么 它们 的 TFAIDF 得 分 会 很 高 。 利 用 IDF 值 ， 使 得 TFVIDF 相似 度 得 分 可 以 有 效 地 降 
低 高 频 词 的 作用 。 
在 上 面 的 例子 中 ， 我们 假设 v(t) =f, d) “idf(t) 。 这 意味 着 如 果 将 文档 d 中 单词 t 
出 现 的 次 数 加 倍 ， 那 么 v(t) 的 值 也 将 加 倍 。 但 在 实际 中 ， 我 们 希望 加 倍 单词 出 现 的 次 数 
只 增加 少量 的 v(t) 。 一 种 方法 是 对 TF Al IDF 值 都 取 对 数 ， 即 
vi(t) = log(tf(t,d) +1) + log(idf(t) ) 
(事实 上 ，log(idf(1)) 本 身 也 常 称 为 逆向 文档 频率 。) 此 外 ,vj(t) 可 以 进行 最 大 值 为 1 


的 标准 化 处 理 ， 即 
v(t) = v,(t)/ [ È u)? 


这 样 , 式 (4-1) 中 的 计算 TF/IDF 相似 度 得 分 ;(p，gq) 转化 为 计算 两 个 经 过 规范 化 的 特 
征 向 量 (v, Alv,) 的 点 积 。 


4. 2.3 混合 相似 度 度量 
下 面 介 绍 几 个 结合 了 基于 序列 和 基于 集合 的 相似 度 度量 方法 优点 的 混合 方法 。 


分 是 =0. 39, 


YE Jaccard ZA 

Jaccard 度量 方法 计算 两 个 字符 串 x A y 之 间 相 同 的 词 项 数 ， 但 是 这 些 词 项 必须 完全 一 
样 ， 以 便 Jaccard 度量 考虑 重合 集 的 计算 ,这 在 一 些 情况 下 也 是 有 缺陷 的 。 

比如 ， 考 虑 对 公司 各 部 门 的 名 称 进 行 匹 配 。 像 “Energy and Tranportation 和 
Transportation, Energy, and Gas” RIEF S, Jaccard 度量 是 很 好 的 度量 方法 ， 
因为 如 果 两 个 名 字 具 有 很 多 相同 的 单词 (比如 energy fil transportation) ， 那 么 它们 很 有 
可 能 是 相似 的 。 但 是 ， 在 现实 中 这 些 单词 可 能 会 被 拼 错 ， 比 如 energy 会 被 拼 成 eneryg。 
泛 Jaccard 度量 方法 可 以 应 对 这 种 情况 的 匹配 。 

在 Jaccard 度量 中 ， 我 们 首先 将 字符 串 x 转换 成 词 项 的 集合 B, = |x, ，…，x, 上 ， 将 字 
FB y 转换 成 词 项 的 集合 B, = |y, s, Yulo E 4-12a 是 这 样 两 个 字符 串 进行 转换 的 图 
例 , EPB = fe, b, ef, B= {Ps ql. 





K| 4-12 泛 Jaccard 度量 示例 
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接 下 来 的 3 个 步骤 将 决定 哪些 词 项 对 将 用 于 泛 Jaccard 度量 。 首 先 ，* 是 一 个 返回 值 在 
[0, 1] 区 间 的 相似 度 度量 函数 。 我 们 使 用 * 计算 B, 和 B, 中 每 一 对 词 项 的 相似 度 得 分 。 
图 4-12a 中 的 边 展示 了 这 6 个 得 分 。 

其 次 ， 只 保留 那些 超过 某 个 阔 值 a 的 相似 度 。 图 4-12b 是 a =0.5 时 的 剩余 得 分 。 集 合 
B, 与 B, 加 上 那些 表示 剩余 得 分 的 边 组 成 了 一 个 二 部 图 6。 在 第 三 步 中 ， 我们 将 寻找 图 G 中 
的 一 个 权重 最 大 的 匹配 M。 图 4-120 显示 了 这 个 匹配 。 这 个 匹配 的 总 权重 是 0.7+0.9 =1.6。 

最 后 ， 返 回 该 匹配 M 经 过 规范 化 的 总 权重 作为 字符 串 x y 的 泛 Jaccard 得 分 。 为 了 
规范 化 ,我们 将 权重 除 以 M 的 边 数 与 B, 和 B, 中 没有 匹配 的 元 素数 之 和 。 这 个 和 是 
|M| +(|B,|-|M|)+(|/B,|-|M|)=|B,1+/B,|-|M)]. Bx, FHP x 
和 Yy 之 间 的 泛 Jaccard 度量 得 分 为 


PROA 
etap) = Te |+ 1E T- TM] 
在 图 4-12 的 例子 中 ， 泛 Jaccard 得 分 是 (0.7 +0.9)/(3 +2 -2) =0. 53, 
XZ Jaccard 得 分 GJ(x, y) 的 值 一 定 是 在 0~1 之 间 。 这 是 对 Jaccard 度量 J(x, y) 的 
一 个 自然 的 泛 化 : 如 果 要 求 B, MB, 中 的 元 素 必须 一 样 才能 匹配 ， 则 GJ, y) 就 退化 为 
Jx, y)s RIE 4.3 节 中 会 介绍 如 何 高 效 地 计算 GJ(x，y)。 





泛 TFAIDF JAME A 
这 种 度量 方法 和 泛 Jaccard 度量 方法 类 似 ， 但 它 使 用 TIVIDF 度量 而 不 是 Jaccard 度量 
作为 “上 层 ” 相 似 度 度量 方法 。 
考虑 3 AFF HB x = Apple Coorpation, CA, y = IBM Corporation, CA, fil z= 
Aple Corp。 为 了 匹配 这 些 字 符 串 ， 使 用 TF/IDF 度量 使 得 我 们 可 以 不 考虑 常见 的 单词 ， 
如 Corporation 和 CA， 带 来 的 影响 。 不 幸 的 是 ， 在 这 个 例子 中 ，TF/IDF 度量 不 能 帮助 我 
们 匹配 字符 串 x 和 z。 因 为 x 中 的 Apple 不 能 和 z 中 的 Aple 匹配 。 因 此 x 和 z 不 共享 任何 
单词 。 与 泛 Jaccard 度量 类 似 ， 可 以 弱化 匹配 Apple 和 Aple 的 要 求 ， 只 要 求 它们 彼此 相似 
即 可 将 它们 匹配 。 
我 们 如 下 计算 TF/IDF 度量 。 给 定 字符 串 x Aly, 创建 两 个 文档 B, 和 B,。 图 4-13b 是 
根据 图 4-13a 中 的 字符 串 建立 的 文档 。 
x=abcd B,={a, b, c, d} 
| 07 oA Nos an ee i ie) 08 + 
y=aa'b'cd’ By={a, a’, b’, c, d} vx(c) . vy(c) . 1 
close (x, y, 0.75) = {a, b, c} 
a) b) c) 
图 4-13 计算 字符 串 x Al y 的 泛 TEVIDF 相似 度 得 分 示例 


EPR, WARE close(x, y, k)o close(x, y, k) Æ B, 中 与 B, 中 至 少 一 个 单词 相 
似 的 单词 的 集合 。 即 ，close(x，y, k) 包含 所 有 B, 中 的 单词 +e B.， 并 且 满 足 存在 单词 
ueB, 使 得 s(t,， wu) 三 £， 其 中 s' 是 一 个 基本 的 相似 度 度 量 方法 ( 比如，Jaro- Winkler) , k 
是 一 个 预先 指定 的 阔 值 。 图 4-13b 中 显示 了 一 些 单词 的 基本 度量 值 ， 比 如 ,，s'(a, a) =1, 
s'(a, a’) =0.7 和 等。 这样，close(x,，y，0.75) = {a,，46b5，c|}。 注 意 这 里 没有 包含 4， 因 为 
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TEB, 中 ， 和 d 最 相似 的 就 是 d', 但 s(d, d') =0.6<0.75。 
最 后 ， 根 据 传统 的 TF/IDF 得 分 的 计算 方法 计算 s(x, y), 但 对 TF/IDF 公式 中 的 每 项 
都 给 了 一 个 权重 ， 这 个 权重 就 是 前 面 计算 的 相似 度 度量 得 分 。 比 如 ，v, 和 v, 是 字符 串 x 
Aly 的 特征 向 量 ，v, Fly, 都 经 过 最 大 值 为 1 的 规范 化 ， 所 以 传统 的 TF/IDF 得 分 是 这 两 个 
向 量 的 点 积 。 这 样 ， 有 
s(x,y) = S, v(t) +o,(u,) s (t,u,) 


teclose(x,y,k) 


Hp u, eB, EEI s(t, u) 最 大 的 单词 。 图 4-13e 展示 了 如 何 根据 图 4-13a、b 中 的 例子 
来 计算 s(x, y)o 


Monge- Elkan FE (LE EF it 

Monge- Elkan 相似 度 度量 对 那些 需要 对 相似 度 度量 有 更 多 控制 的 领域 更 有 效 。 为 了 将 
这 种 度量 应 用 到 两 个 字符 串 x 和 y 中 ， 首 先 将 x Aly 分 成 多 个 子 字符 串 ， 比 如 ，x =A, 
4.，y=B…B,， 其 中 4 AB MASSA. Wa, +H 


lw” , 
s(x,y) = me ie (A; ,B;) 


其 中 s' 是 辅助 相似 度 度量 方法 ， 如 Jaro- Winkler。 为 了 说 明 上 面 的 公式 ， 假 设 x = AA, 
y =B,B,B,. BA 


s(x,y) = [max|s’(A1,B1) ,s' (A, ,B) ,5(41 ,8,) | 


+ max{s'(A,,B,) ,s'(A,,B,) ,s'(A,,B;) } ] 

注意 ， 我 们 忽略 了 子 字符 串 匹 配 间 的 顺序 ， 只 考虑 子 字符 串 之 间 的 最 佳 匹 配 。 而 且 ， 
可 以 为 特殊 的 应 用 定制 辅助 相似 度 度量 方法 s'o 

比如 ， 考 虑 匹配 字符 串 x = Comput. Sci. and Eng. Dept. , University of California, 
San Diego 和 y = Department of Computer Science, Univ. Calif., San Diego, 为 了 
应 用 Monge-Elkan 度量 ， 首 先 将 x 和 y 分 成 Comput. , Sci. 和 Computer 等 子 字符 串 。 
接 下 来 ， 为 这 样 的 字符 串 设 计 辅 助 相似 度 度量 方法 ;。 特 别 地 ， 这 种 度量 方法 s' 可 以 处 理 
对 缩写 的 匹配 。 比 如 ，s' 可 以 判定 如 果 A; 是 B, 的 前 级 (4 Comput. 和 Computer) 则 两 
者 匹配 ， 这 样 它 们 的 相似 度 得 分 是 1。 


4.2.4 ”语音 相似 度 度量 


目前 讨论 的 相似 度 度 量 方法 都 是 基于 字符 串 的 字符 形式 来 考虑 的 。 相 反 ， 语 音 度量 方 
法 根据 字符 串 的 发 音 对 字符 串 进行 匹配 。 这 在 对 名 字 的 匹配 时 十 分 有 效 ， 因 为 不 同 拼写 的 
名 字 通 常 具 有 相同 的 发 音 。 比 如 ，Meyer、Meier 和 Mire 的 发 音 都 相同 ，Smith、Smithe 和 
Smythe 的 发 音 也 是 如 此 。 我 们 描述 最 常 使 用 字符 串 语音 表示 的 度量 方法 。 我 们 在 参考 文献 
注释 中 提 到 了 一 些 基本 语音 度量 的 扩展 方法 。 

语音 度量 主要 用 来 处 理 姓氏 匹配 。 它 将 一 个 姓氏 x 映射 成 一 个 由 4 个 字符 组 成 的 编码 
来 表示 这 个 单词 的 发 音 。 如 果 它 们 具有 相同 的 发 音 编 码 则 认为 这 两 个 姓氏 是 相似 的 。 将 > 
映射 成 这 样 一 个 编码 的 过 程 如 下 所 示 。 我 们 使 用 x = Ashcraft 作为 例子 说 明 这 个 过 程 。 

1) iE x 的 第 一 个 字母 作为 编码 的 第 一 个 字符 。Ashcraft 的 第 一 个 字母 是 A， 因此 x 
的 编码 的 第 一 个 字母 也 是 A。 接 下 来 的 步骤 在 x 的 剩 下 的 子 字符 串 上 进行 。 
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2) 删除 所 有 出 现 的 W 和 H。 然 后 根据 以 下 规则 用 数字 代替 剩余 的 字母 : 将 B、F、 
O、V 用 1 代替 ; C、G、J、K、Q、S、X、Z 用 2 代替 ; D、T 用 3 RÆ; L 上 用 4 代替; 
M、N 用 5 代替 ; R 用 6 代替 。 注 意 ， 我 们 不 替换 元 音 A、E、0、U 和 Y。 在 我 们 的 例子 
tA, Ashcraft 转换 成 A226a13 。 

3) 将 连续 相同 的 数字 用 第 一 个 代替 ， 因 此 A226a13 转换 成 A26a13 。 

4) 将 所 有 非 数字 的 字母 去 掉 〈 除 了 第 一 个 字母 ) 。 然 后 返回 剩余 部 分 中 的 前 4 个 字符 
作为 语音 编码 。 这 样 ，A26a13 首先 转换 成 A2613 ， 然 后 返回 相应 的 语音 编码 A261。 

这 样 ， 字 符 串 的 语音 表示 总 是 一 个 字母 后 面 跟着 3 个 数字 ， 如 果 没 有 足够 的 数字 ， 可 
以 用 0 来 填充 。 比 如 ，Sue 的 语音 表示 就 是 S000, 

根据 以 上 描述 ， 字 符 串 的 语音 表示 编码 方式 是 一 种 蛤 希 方法 ， 它 将 发 音 类 似 的 字母 映 
射 成 相同 的 数字 ， 这 样 将 类 似 发 音 的 名 字 映 射 成 相同 字符 串 的 语音 表示 代码 。 比 如 ， 它 将 
Robert 和 Rupert 都 映射 成 R163 。 

字符 串 的 语音 表示 并 非 完 美 。 比 如 ， 它 不 能 将 具有 相似 发 音 的 姓氏 Gough 和 Goff 以 
及 Jawornicki 和 Yavornitzky 编码 成 相同 的 代码 (前面 的 是 美式 发 音 ) 。 尽 管 如 此 ， 它 依 
然 是 人 口 普查 信息 、 船 上 乘客 列表 、 基 因数 据 库 等 应 用 中 姓名 匹配 的 常用 方法 。 尽 管 字符 
串 的 语音 表示 在 设计 时 针对 高 加 索 人 的 姓氏 ,但 它 在 其 他 种 族人 的 姓氏 上 表现 得 也 很 好 。 
然而 ， 它 对 东亚 种 族 的 名 字 不 能 很 好 地 处 理 ， 因 为 这 些 名 字 的 发 音 中 元 音 起 了 很 大 作用 ， 
但 元 音 在 字符 串 的 语音 表示 中 被 忽略 了 。 


4.3 可 扩展 的 字符 串 匹 配 


一 旦 选 定 了 要 使 用 的 相似 度 度量 方法 s(x*，y) ， 下 一 个 具有 挑战 性 的 问题 就 是 如 何 有 
效 地 对 字符 串 进 行 匹配 。 假 设 并 和 了 是 两 个 要 匹配 的 字符 串 集合 ,，: 是 相似 度 的 阔 值 ， 一 
种 朴素 的 匹配 方法 是 : 
for 每 个 字符 串 xeX do 
for 每 个 字符 串 yeY do 
if s(x, y) =t then 返回 匹配 字符 串 对 (x, y) 
end for 
end for 
这 种 方法 的 时 间 复 杂 度 是 0( | 工 || 了 | ) ， 这 对 大 规模 数据 集 是 不 适用 的 。 一 个 更 常见 
的 方法 是 基于 一 个 找到 给 定 字符 串 的 候选 匹配 字符 串 的 方法 FindCands。 假 定 有 这 样 一 个 
方法 ， 我 们 可 以 使 用 下 面 的 算法 : 
for 4-4 F 4 # xe X do 
利用 FindCands 找到 候选 集 ZCY 
for 每 个 字符 囊 yeZ do 
if s(x, y) >t then 返回 匹配 字符 串 对 (x, y) 
end for 
end for 
这 种 方法 经 常 称 为 块 方法 〈blocking solution) ， 其 时 间 复 杂 度 是 0( |X ||Z |), 这 比 
之 前 的 时 间 复 杂 度 0( |X || Y |) 要 快 得 多 ， 因 为 FindCands 的 设计 保证 了 寻找 Z 的 代价 
较 低 且 |Z | 要 远 小 于 | 了 | 。 集 合 2 称 为 集合 x 的 候选 集 。 它 包括 Y 中 所 有 可 能 与 x 匹配 
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的 字符 串 以 及 尽 可 能 少 的 一 些 包含 在 Y 中 但 不 与 x 匹配 的 字符 串 。 

显然 ，FindCands 方法 是 上 述 方法 的 核心 ， 目 前 已 经 提出 了 很 多 FindCands 方法 的 
技术 。 这 些 技术 一 般 基于 索引 或 启发 式 过 滤 。 现 在 讨论 一 些 常见 技术 的 基本 思路 。 接 下 
来 ， 介 绍 使 用 Jaccard 和 重 秋 度量 的 技术 。 之 后 ， 将 讨论 如 何 将 这 些 技术 扩展 到 其 他 相似 
度 度量 中 。 


4.3.1 字符 串 上 的 倒 排 索引 


该 技术 首先 将 集合 了 中 的 每 个 字符 串 y 转化 成 一 个 文档 ， 然 后 在 这 些 文档 上 建立 倒 排 
索引 。 给 定 一 个 单词 :， 我们 可 以 使 用 索引 快速 地 找到 由 了 创建 的 包含 的 文档 ， 即 了 中 
包含 1 的 字符 串 。 

图 4-14a 是 一 个 匹配 两 个 集合 并 和 了 的 例子 。 我 们 可 以 扫描 集合 了 构建 如 图 4- 14b 所 示 
的 倒 排 索引 。 比 如 ， 这 个 索引 中 单词 area 在 文档 5 中 出 现 ， 单 词 lake 在 文档 4 和 6 中 出 现 。 


2 | | ne | 
| os 


1: {lake, mendota} 
2: {lake, monona, area} aes 


3: {lake, mendota, monona, dane} | take | 46 | 
集合 Y | mendota | 6 | 


4,5,6 
5: {monona, research, area} research | ss | 
6: {lake, mendota, monona, area} BEJ 


university 


4: {lake, monona, university} 





a) b) 
图 4-14 使 用 倒 排 索 加 速 字符 串 匹 配 


给 定 集合 X 中 的 一 个 字符 串 x*，FindCands 方法 使 用 倒 排 索引 快速 地 找到 至 少 包含 x 
中 一 个 单词 的 了 中 字符 串 的 集合 。 在 上 面 的 例子 中 , x= | lake，mendota| ， 我 们 使 用 
图 4-14b 中 的 索引 找到 lake 和 mendota 的 ID 列表 ， 并 对 这 两 个 列表 做 合并 操作 ， 最 终 得 
到 候选 集 Z=14,，6|。 

这 个 方法 显然 比 简单 地 将 x 与 Y 中 的 所 有 字符 串 进行 匹配 要 好 。 尽 管 如 此 ， 它 仍 受 到 
很 多 限制 。 首 先 ， 单词 的 倒 排 表 可 能 会 很 长 ， 因 此 倒 排 索引 的 构造 和 维护 代价 会 很 高 。 其 
次 ,该 方法 将 x 与 Y 中 至 少 包含 x 中 一 个 单词 的 字符 串 进行 匹配 ， 这 些 字符 串 的 数量 在 实 
际 中 可 能 会 很 大 。 下 面 描述 的 技术 解决 了 这 些 问 题 。 


4.3.2 大 小 过 滤 


该 技术 只 检索 了 中 那些 在 字符 串 长 度 上 有 可 能 作为 候选 的 字符 串 。 给 定式 中 的 一 个 字 
符 串 *x， 我 们 可 以 推算 出 了 中 字符 串 可 以 与 x 匹 配 的 最 小 字符 串 长 度 。 使 用 B 树 索 引 获 取 
那些 满足 长 度 限 制 的 字符 串 。 

为 了 计算 Y 中 字符 串 的 长 度 限制 ， 让 我 们 回顾 Jaccard 度量 的 定义 ( | x | 表示 x 中 单 
词 的 个 数 ) : 

Kay) = leny lsu y] 
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首先 ， 有 
1/J(x,y) = ly|7 |x| = J(x,y) (4-2) 
让 我 们 来 看 看 为 什么 。 考 虑 |y | = |x | 的 情况 。 在 这 种 情况 下 ， 显 然 |y|/|x | Sle 
J(x，y)。 因 此 只 需 证 明 1/J(x, y)=lyl/ lal, 或 者 等 价 地 |xUy|/|xNy| 宇 |y|/|x 
| 。 这 个 不 等 式 是 成 立 的 ， 因 为 |xUy | 三 max| |x|，,，|y|}=|y|, 并 且 |xNy| <min 
(lel, lylb=lalo iyl < |x| 的 情况 也 可 以 用 类 似 的 方法 证 明 。 
假设 上 是 预先 指定 的 相似 度 阔 值 ， 即 J(«, y) Sto BAK (4-2) ， 这 意味 着 LA > 
ly|/ |x| Se, 或 者 ， 等 价 地 ， 
lx|/e> |y|= |x|.: (4-3) 
因此 ， 给 定 集合 X 中 的 一 个 字符 串 x， 我 们 知道 集合 Y 中 的 字符 串 只 有 满足 式 (4-3) F 
能 和 x 匹配。 
继续 考虑 图 4-14a 中 的 例子 来 说 明 这 个 等 式 的 含义 。 假 设 上 =0.8。 使 用 式 (4-3)， 如 
果 了 中 的 字符 串 y Al x 匹配 ， 则 2/0.8=2.5> |y | >=2 x0.8 =1.6。 我 们 可 以 立刻 看 出 
图 4-14a 中 没有 字符 串 满 足 这 个 约束 。 
使 用 上 述 思 想 ，FindCands 方法 为 集合 Y 中 的 每 个 字符 串 的 长 度 建立 一 棵 B 树 ， 但 
给 定 集合 全 中 的 一 个 字符 串 x 时 ，FindCands 使 用 索引 找到 满足 式 (4-3) 的 字符 串 ， 并 
把 这 个 字符 串 的 集合 当做 候选 集 Z。 该 方法 在 X 和 了 中 的 字符 串 的 单词 数 差 异 很 大 时 十 分 
有 效 。 


4. 3.3 前 缀 过 滤 


该 技术 背后 的 思想 是 ， 如 果 两 个 集合 拥有 许多 相同 的 单词 ， 那 么 它们 较 大 的 子 集 也 一 定 
具有 这 些 相 同 的 单词 。 使 用 这 个 原理 ， 可 以 减少 可 能 与 字符 串 x 相 匹配 的 候选 字符 串 的 
数目 。 

首先 使 用 重 和 到 相似 度 度 量 解释 这 种 技术 ， 然 后 使 用 Jaccard 度量 解释 这 种 技术 。 假 设 % 
Aly 是 具有 上 个 相同 单词 的 字符 串 集 合 |xzmy | >k, BA x 的 任何 长 度 大 于 |x| -(k-1) 
的 子 集 都 与 y BH. thin, ÆR 4-15a 中 ,集合 x | lake, monona, area}, y 是 
llake，mendota，monona，areal 。|xny| =3 >2。 因 此 ， 图 4-15b 中 x 的 子 集 *' = 
llake，mononal| 5 y B# (x 的 其 他 长 度 大 于 2 的 子 字符 串 也 一 样 ) 。 


| 













集合 X 


1: {lake, mendota} 
2: {lake, monona, area} 
3: {lake, mendota, monona, dane} 






x: {lake, monona,area} 
Z sey | monona | 456 | 






4: {lake, monona, university} 

5: {monona, research, area} 

6: {lake, mendota, monona, area} 
7: {dane, area, mendota} 


es a 
Cn 
c) 


y: {lake, mendota, monona, area} 


a) b) 


图 4-15 使 用 前 缀 过 滤 来 加 速 字符 串 匹配 
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可 以 在 FindCands 中 使 用 如 下 的 思想 。 假 设 我 们 和 希望 找到 所 有 重奏 Olx, y) = 
k(O(x，y) 是 重合 相似 度 度量 ) 的 (x, y) 对 。 我 们 构造 x 的 长 度 大 于 |x| -(k-1) 的 
子 集 x'， 然 后 使 用 倒 排 索引 寻找 所 有 在 集合 y 中 与 x' 重 全 的 字符 串 的 集合 。 图 4-15b、ce 
展示 了 这 个 过 程 。 假 设 我 们 希望 对 图 4-15b 中 集合 X 和 集合 Y 中 的 字符 串 按照 0(x,y) 三 2 
进行 匹配 。 首 先 ， 如 图 4-15c 所 示 对 集合 了 建立 倒 排 索 引 。 接 下 来 ， 对 于 工 的 一 个 子 集 
x = |lake，mendota| ， 使 用 长 度 为 |x, | -1 的 前 级 {lake}, ##4 {lake} 为 x'。 使 用 
倒 排 索引 在 工 中 寻找 所 有 至 少 包含 * 中 一 个 单词 的 字符 串 ， 最 后 找到 了 (ya vol HER, 
如 果 我 们 寻找 至 少 包含 * 中 的 一 个 单词 的 字符 串 ， 那 么 将 找到 (ya, Yo yo BE, RE 
使 用 索引 寻找 x 的 一 个 子 字符 串 能 够 有 效 地 减少 候选 结果 集 的 大 小 。 


PREMATI 

到 现在 为 止 ， 我 们 都 是 任意 地 选择 x 的 子 字 符 串 ， 然 后 检查 它 与 集合 了 中 的 字符 串 是 
否 重合 。 我 们 可 以 通过 选择 x 的 特殊 字符 串 *'， 检 查 与 y PHASE Sy WBE, EX 
果 更 好 些 。 特 别 地 ， 假 设 对 所 有 的 单词 施加 一 个 顺序 2。 比 如 ， 可 以 像 图 4-15b 中 计算 处 
和 了 了 的 并 集 那 样 将 单词 按照 出 现 的 频率 升序 排序 。 图 4-16a 是 XUY 中 所 有 单词 的 一 个 排 
序 结果 。 

将 每 个 和 YY 中 的 字符 串 按 照 顺 序 0 重 新 排列 单词 的 顺序 。 图 4-16b 是 经 过 重 排 后 的 
集合 X 和 和 集合 Y。 对 于 重 排 后 的 字符 串 x，x' 是 包含 x 的 前 nn 个 单词 的 子 字 符 串 。 比 如 ,x 
的 前 两 个 单词 的 子 字符 串 是 | dane，mendota| 。 我 们 可 以 建立 以 下 性 质 : 

命题 4.1 令 x 和 yy 是 两 个 集合 ， 它 们 满足 |xmny | 三 hk。 Hae’ Ra HKBA |x| - 
(k-1) 的 前 组 , 令 y' 是 y 的 长 度 为 |y| -(k-1) HAR, Ux’ Foy ER, 

证 明 : 令 x" 是 x 长 度 为 (k-1) WAR ( 见 图 4-16c) ， 显 然 x*Ux" =x。 类 似 地 ， 令 
Y 是 y 的 长 度 为 大 -1 WER. MERR x Ny =D. RA x N'D (BM |xny| =k A 
能 成 立 ) 。 因 此 一 定 存在 元 素 u (E4Ẹ u ex Huey". RW, thc o 使 得 vey' 且 
vex”"。 因 为 ex' 而 vex”， 在 顺序 0 下 ,uw <v。 但 因为 v 属 于 y' 而 uw 属于 yyw， 所 以 在 顺序 0 
F, v<wu。 这 产生 了 矛盾 ， 因 此 x' 和 yy' 是 重 番 的 。 m 

重新 排序 集合 X 


1: {mendota, lake} 
2: {area, monona, lake} x x’ 
3: {dane, mendota, monona, lake} - SS SS 


university < research 


A 
< < < v 
hn or rn cout 4: {university, monona, lake} y a 
5: {research, area, monona} yr yr 


6: {area, mendota, monona, lake} 
7: {dane, area, mendota} 


a) b) c) 
图 4-16 对 Y 中 字符 串 的 前 组 构建 倒 排 索引 ， 利 用 倒 排 索引 进行 字符 串 匹 配 
有 了 这 个 性 质 ， 可 以 如 下 重新 设计 FindCands, (RiZ(KREKRE DA PHS ( 即 0 
(x, y) 2k). 
© 按照 出 现 的 频率 对 每 个 字符 串 xeX 和 yeY 中 的 单词 进行 升序 排序 (如 图 4-16b 
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所 示 )。 

© 对 于 集合 Y 中 的 每 个 字符 串 y， 创 建 长 度 为 |y | -(k-1) HFE y 

© 为 所 有 的 前 级 y' 构 造 倒 排 索引 。 图 4- 17a EHER Olx, y) >2 时 的 倒 排 索引 的 
例子 。 

© 对 于 集合 XX 中 的 每 个 字符 串 x， 我 们 建立 其 长 度 为 |x | -(k-1) WRT’, Ra 
使 用 上 面 的 倒 排 索引 寻找 集合 Y 中 所 有 前 缀 y' 与 x 重合 的 字符 串 y。 


















考虑 例子 , x = | mendota, lake}, - 
因此 x’ = | mendota| 。 使 用 mendota 
寻找 图 4- 17a PARE, BIRER EBELE 
Yeo Kik, FindCands 是 唯一 可 能 与 x | mendota | 6 | 
匹配 的 字符 串 。 注 意 ， 如 果 检 查 x’ | monona | 46 | Frona | 456 
部 字符 让 y WEE, n 也 会 被 返回 。 因 [research | 5 | Mesan] 5 | 


此 ,检查 前 缀 的 重 着 可 以 减少 结果 集 的 
大 小 。 在 实际 中 ， 这 种 方法 可 以 大 量 减 | e | 7 | 
少 结果 集 的 大 小 。 

BIRERE, AREAS o yy EPEAT 
\ARB 4 N z| 4-17 a) X ye 小 y|- =ï 前 
j pi ile a ifsc ales 级 倒 排 索引 ，b) 对 于 所 有 ye Y 的 前 级 倒 
图 4-17b 是 整个 集合 了 的 倒 排 案 引 。 而 排 索引 。 在 实际 中 前 者 通常 要 远 小 于 后 者 
4-17a 中 建立 的 倒 排 索引 不 仅 少 了 lake 


项 ， 而 且 mendota 项 的 索引 列表 也 减 小 了 。 


Cimes | 


a) b) 





Ke Bet We A H Jaccard 度量 上 
下 面 的 等 式 让 我 们 可 以 将 前 缀 过 滤 方 法 应 用 到 Jaccard 度量 中 。 


J(x,y) = t&0(x,y) >a = (lal + |y|) (4-4) 


这 个 等 式 展示 了 如 何 将 Jaccard RETF tn HE, (RA ASA Te, BEL a 并 不 
是 一 个 常数 ， 而 是 依赖 于 |x | 和 |y | 。 因 此 ， 无 法 使 用 w 来 构建 集合 了 中 字符 串 y 的 前 级 
的 倒 排 索引 。 为 了 解决 这 个 问题 ， 可 以 索引 最 长 前 级 。 特 别 地 ， 仅 需 索 引 字符 串 y e Y 的 长 
BEA |y | -Ti|1y|11+1 的 前 级 字 符 串 即 可 保证 我 们 不 会 漏 掉 任何 可 能 的 匹配 对 。 


4.3.4 位 置 过 滤 


位 置 过 滤 进 一 步 限 制 了 候选 匹配 集合 的 大 小 。 这 种 技术 对 每 一 对 字符 串 都 推导 出 了 一 
个 重 倒 大 小 的 上 限 。 比 如 ， 考 虑 两 个 字符 串 x = |dane, area, mendota, monona, 
lake} 和 y=|research，dane，mendota，monona，lake| 。 假 设 我 们 希望 J(s, y)= 
0. 8。 在 前 缀 过 滤 中 ， 使 用 长 度 为 |y | -『t|1y |1+1 的 前 级 字符 串 。 在 这 个 例子 中 ， 由 于 
5 -10.8x51+1=2， 所 以 得 到 的 前 级 字符 串 y = | research，dane| 。 类 似 地 ，x MATA 
FTE x’ =|dane, area}. Ax’ y EA, MRE (x, y) 作为 一 个 候选 对 。 

然而 ,我 们 可 以 做 得 更 好 。 假 设 x" 是 x 除去 x' 以 外 的 剩余 部 分 ，y" 是 y 除去 y' 的 剩余 
部 分 ， 那 么 很 容易 看 出 
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O(x,y) < |x’ Ny'|+min{ |x"], iy" |} (4-5) 
将 这 个 不 等 式 应 用 到 前 面 的 例子 中 , 得 0(x, y) <1 +min{3, 3} =4。 然 而 ， 使 用 


4 0.8 
R (4-4), 得 到 0(x, yri (lel +lyl) = 了 0 "(5+5) =4.44。 因 此 , 可 以 


直接 将 这 个 字符 串 对 〈*，y) 排除 。 更 一 般 地 ， 位 置 过 滤 结 合式 (4-4) 和 式 (4-5) 进 
一 步 减少 候选 匹配 集 的 大 小 。 


4. 3.5 边界 过 滤 


边界 过 滤 是 计算 泛 Jaccard 相似 度 度量 的 优化 方法 。 回 忆 4. 2.3 49, % Jaccard 度量 在 
连接 字符 串 x Aly 的 二 部 图 中 计算 最 大 权重 匹配 M 的 规范 化 权重 : 


> s(x, ,Y;) 


d oY (4),9;) €M 
CKey) = Tp |+ TE- ET 


在 这 个 等 式 中 ，s 是 辅助 相似 度 度量 ，B, = {x,, o «| 是 x 中 单词 的 集合 ，B, = 
Lys + yn| 是 y 中 单词 的 集合 。 

计算 C(x, y) 的 直接 方法 需要 计算 二 分 图 的 最 大 权重 匹配 ， 这 个 代价 很 高 。 为 了 解决 这 
个 问题 ， 给 定 一 个 字符 串 对 (x, y), RIBH CIE, y) 的 上 界 UB(*，y) 和 下 界 LB(x，y)。 
FindCands 如 下 所 示 利 用 这 些 界限 : 如 果 UB(x, y)<t, Aik (x，y) ， 它 不 可 能 匹配 成 功 ; 
如 果 LB(x*，y) St, El (*，y) ， 它 一 定 匹 配 成 功 。 和 否则 ， 我 们 计算 CGJ(x*，y) 。 

上 界 和 下 界 可 以 计算 如 下 。 首 先 ， 对 于 B, 中 的 每 个 元 素 x;,， 寻 找 Y 中 与 它 最 匹配 的 
TCR yj, Bl s(x;，y;) >a (回想 对 GJ(x,，y) 的 描述 ， 只 有 满足 s(x;，y;) 2a, 我 们 才 认 
为 它们 是 匹配 的 )。 令 S, 是 所 有 这 样 的 单词 对 的 集合 。 

例如 ， 图 4-18a 包含 两 个 字符 串 x My 以 及 它们 单词 之 间 的 相似 度 得 分 (从 图 4-12a 
中 重新 生成 ) 。 图 4-18b 是 根据 图 4-18a 计算 出 的 集合 S, = | (a, q), (b, g)}. ER, 对 
FB, 中 的 元 素 c， 在 B, 中 没有 与 其 相似 度 大 于 等 于 a 的 元 素 。 此 例 中 我 们 使 用 a =0. 5。 





图 4-18 泛 Jaccard 度量 方法 中 的 上 下 界 计算 示例 


类 似 地 ， 对 于 B, 中 的 每 个 元 素 y;， 在 中 寻找 一 个 与 它 最 匹配 且 相 似 度 大 于 a 的 字符 串 
Xio 5S, 是 所 有 这 样 的 单词 对 的 集合 。 图 4-18c 是 上 例 中 计算 得 出 的 S, = | (a, p) , (b, p) } o 
GJ(x, y) 的 上 限 由 下 面 的 公式 给 出 : 


s(xi,y;) 


UB = (xi8)) ESIUS2 
(=) = TB T+ IB,- I5, US] 


TER, UB(x, y) 的 分 子 大 于 等 于 GJ(x，y) 的 分 子 相 同 ， 而 UB(x，y) 的 分 母 小 于 等 于 
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GJ(x，y) 的 分 母 。 下 限 由 下 面 的 公式 给 出 : 
5(%;,Y;) 


(xi,%)) € 5, US2 
|B, 1+ |B,|- [Si S, | 
在 我 们 的 例子 中 ，UB(x，y) = (0.8 +0.9 +0.7+0.9)/(3 +2 -3) =1.65, LB(x, y) = 
0.9/(3 +2 -1) =0. 225, 


LB(x,y) = 


4.3.6 其 他 相似 度 度量 方法 的 可 扩展 技术 


到 目前 为 止 ， 我 们 讨论 了 可 扩展 技术 在 Jaccard 度量 方法 和 重 琶 度量 方法 上 的 应 用 。 
现在 ， 我 们 介绍 如 何 将 这 些 技 术 应 用 到 多 种 其 他 度量 方法 上 。 首 先 ， 正 如 前 面 所 提 到 的 ， 
可 以 通过 将 J, y) 中 的 |xUy| 由 |x| + |y| -1xny| 代 替 来 轻易 地 证 明 : 


J(x,y) iO0(x,y) = a =a; (lel+ Iyl) 


1 
因此 ， 如 果 一 种 技术 可 以 应 用 到 重 释 度量 上 ， 我 们 就 很 有 可 能 将 它 也 应 用 到 Jaccard 度量 
中 ， 反 之 亦 然 。 比 如 ， 之 前 介绍 过 如 何 将 原本 用 于 重 倒 度量 的 前 缀 过 滤 技 术 应 用 到 Jaccard 
度量 上 。 

一 般 来 说 ,一 种 将 技术 7 应 用 到 相似 度 度 量 方法 s(x, y) 的 有 效 方式 是 将 s(x, y) 
转换 成 了 已 经 可 以 工作 的 另 一 种 相似 度 度量 方法 上 的 约束 。 比 如 ， 考 虑 编辑 距离 度量 方 
法 。 令 d(x, 7) 是 字符 串 x 和 y 的 编辑 距离 ，B, AB, 是 x Aly 相应 的 9-gram 集合 。 我 们 可 
以 证 明 : 

d(x,y) < eS0(x,y) 2a = (max| |B.|,|B,|} +g-1)-ge 
有 了 上 面 的 约束 ， 可 以 通过 索引 长 度 为 4。 +1 的 前 级 将 前 缀 过滤 技术 应 用 到 编辑 距离 中 。 
作为 男 一 个 例子 ， 考虑 TFVIDF 的 余弦 相似 度 度量 C(x，y) 。 我 们 可 以 证 明 : 
C(x,y) > tes0(x,y) 三 [Ti VixT [yl] 
有 了 上 面 的 公式 ， 可 以 通过 索引 长 度 为 |x | -TP |x |1+1 的 前 缀 将 前 级 过 滤 技 术 应 用 到 C 
(x, y) 度量 方法 中 (可 以 进一步 优化 为 仅 索 引 长 度 为 |x | -Tt |x |1+1 ARTA). A, 
上 面 的 约束 也 可 以 帮助 我 们 将 位 置 过 滤 技 术 应 用 到 编辑 距离 和 余弦 相似 度 度量 中 。 


参考 文献 注释 


Durbin 等 人 [196 |] 对 编辑 距离 不 同 算法 给 出 了 详尽 的 描述 ， 以 及 对 这 些 算法 的 基于 
HMM 的 概率 解释 。 此 外 ， 字 符 串 相似 度 度 量 和 字符 串 匹配 的 深入 讨论 可 以 在 [146，204， 
280，370，455 ] 中 找到 。 有 关 字 符 串 匹配 的 辅导 资料 在 [355，563 ] 中 。 网 站 [118] 提 供 了 
很 多 字符 串 相 似 度 度量 以 及 它们 的 开源 实现 。 

编辑 距离 在 [376 | 中 首次 提出 。 计 算 编 辑 距离 的 基本 动态 规划 算法 在 [455 ] 中 描述 。 
编辑 距离 的 变种 包括 Needleman- Wunsch [456]. Affine Gap [566], 、Jaro[ 331 ] 和 Jaro- 
Winkler[ 575 ] 。 对 编辑 距离 参数 的 学 习 和 相关 相似 度 度 量 方法 的 讨论 在 [84，86，497] 中 。 

Jaccard 度量 在 [329 ] 中 首次 提出 。 术 语 TF/IDF 最 早起 源 于 信息 检索 社区 [414] ， 基 于 
TF/IDF 的 字符 串 相 似 度 度 量 在 [31，120，145，264 ，352 ] 中 讨论 。 泛 TF/IDF 方法 在 [86， 
148] 中 介绍 。 泛 Jaccard 算法 在 [469 ] 中 首次 提出 。Monge- Elkan 混合 相似 度 度 量 方法 在 
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[442] 中 首次 提出 。Cohen 等 人 [86，148 ] 在 大 量 匹配 任务 的 实验 中 比较 了 字符 串 匹 配 算法 
的 效果 。 

字符 串 的 语音 表示 方法 在 [500，501] 中 首次 提出 。 其 他 基于 发 音 的 相似 度 度 量 方法 包 
括 纽约 州 身份 智能 系统 [537] 、 牛 津 名 字 压 缩 算 法 [250] 、 语 音 发 生 散 列 [477] 和 双语 音 发 
生 散 列 [478 ] 。 

4.3 节 可 扩展 的 字符 串 比 较 部 分 是 从 [370 | 中 改编 而 来 。 创 建 倒 排 索 引进 行 可 扩展 的 
字符 串 比 较 在 [508] 中 讨论 。 大 小 过 滤 的 技术 在 [34] 中 讨论 。 前 绥 索 引 在 [124] 中 介绍 。 
Bayardo 等 人 [59] 讨 论 了 如 何 将 这 些 索 引 与 倒 排 索引 结合 进一步 提高 字符 串 匹 配 的 扩展 性 。 
[469 ] 讨 论 了 边界 过 滤 ，Xiao 等 人 [582] 讨 论 了 位 置 索引 。 

Gravano 等 人 [265 ] 讨 论 了 关系 数据 库 管理 系统 中 基于 g- gram 的 字符 串 匹配 。Koudas 
等 人 [354] 讨 论 了 准确 性 与 性 能 间 的 权衡 ，Vermica[ 559 ] 等 人 讨论 了 map reduce 框架 下 的 
字符 串 匹 配 。 进 一 步 的 字符 串 匹 配 可 扩展 技术 在 [388，423 ，548 ] 中 讨论 。 
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Principles of Data Integration 


模式 匹配 与 模式 映射 


在 第 3 章 中 我 们 介绍 了 数据 源 描述 的 形式 化 方法 ， 以 及 一 些 使 用 描述 信息 进行 查询 重 
写 的 算法 。 为 了 创建 数据 源 描述 ， 一 般 首先 创建 语义 匹配 。 该 匹配 指定 了 源 模式 元 素 和 中 
介 模 式 元 素 如 何在 语义 上 相互 对 应 。 例 如 ， 存 在 后 面 两 个 匹配 : “一 个 数据 源 中 的 属性 
name 对 应 于 另 一 个 数据 源 中 的 属性 title”，“ 属 性 location 由 属性 city, state 和 zip- 
code 组 合 而 成 ” 。 接 下 来 主要 介绍 如 何 从 匹配 得 到 语义 映射 ， 语 义 映射 是 典型 的 结构 化 查 
询 ， 这 些 查 询 可 以 用 类 似 SQL 的 语言 来 描述 。 语 义 映射 指定 了 数据 如 何在 源 模式 和 中 介 模 
式 之 间 进 行 转换 。 上 述 两 个 步骤 分 别称 为 模式 匹配 和 模式 映射 ， 是 本 章 重 点 讨论 的 内 容 。 

在 构建 数据 集成 系统 的 实际 应 用 中 ， 匹 配 和 映射 的 创建 需要 耗费 很 大 精力 。 这 些 任 务 
之 所 以 比较 困难 ， 主 要 是 因为 需要 对 源 模 式 和 中 介 模 式 的 语义 有 比较 深入 的 理解 。 而 这 些 
语义 信息 可 能 需要 从 很 多 人 那里 才能 得 到 ， 其 至 包括 已 经 离职 的 人 。 此 外 ， 了 解数 据 语 义 
的 人 不 一 定 是 数据 库 专 家 ， 他 们 往往 需要 熟悉 数据 库 的 人 来 辅助 。 

本 章 主 要 介绍 一 些 创 建 语义 匹配 和 映射 的 技术 。 与 前 面 章 节 介 绍 的 算法 不 同 ， 本 章 我 
们 所 面临 的 任务 是 一 种 启发 式 任务 。 任 何 一 种 算法 都 无 法 确保 对 于 两 个 任意 的 数据 库 模 式 
产生 完全 正确 的 匹配 和 映射 。 我 们 的 主要 目标 是 构建 一 些 能 够 大 大 降低 创建 匹配 和 映射 时 
间 开 销 的 工具 。 这 些 工具 可 以 帮助 设计 者 完成 一 些 重复 性 的 、 烦 琐 的 工作 ， 并 可 以 对 关键 
任务 提供 一 些 有 用 的 建议 和 指导 。 


5.1 问题 定义 


我 们 首先 定义 模式 元 素 、 语 义 匹 配 和 语义 映射 。 假 设 S 和 了 是 两 个 关系 模式 ，$ 中 的 
属性 和 表 称 为 SWAR, 7 中 的 属性 和 表 称 为 了 的 元 素 。 


例 5.1 以 图 5-1 中 的 两 个 模式 为 例 ， 模 式 DVD-VENDOR 属于 DVD 的 供应 商 ， 并 包 
含 3 张 表 。 第 一 张 表 ，Movies， 描 述 电影 的 基本 信息 ， 剩 下 的 两 张 表 ，Products 和 
Locations ， 则 分 别 描述 DVD 的 制作 信息 和 销售 地 点 。 模 式 AGGREGATOR 属于 一 个 购 
物 整 合 网 站 。 与 单个 供应 商 不 同 ， 整 合 模式 并 不 对 产品 的 详细 信息 感 兴趣 ， 而 是 只 关注 面 
向 客户 的 那些 属性 ， 如 表 items 中 列 出 的 属性 。 

DVD-VENDOR 
Movies(id, title, year) 


Products(mid, releaseDate, releaseCompany, basePrice, rating, saleLocID) 
Locations(lid, name, taxRate) 





AGGREGATOR 
Items(name, releaselnfo, classification, price) 








图 5-1 两 个 数据 库 模 式 : 其 中 ,模式 DVD- VENDOR 属于 DVD 供应 商 ， 
模式 AGGREGATOR 属于 一 个 购物 整合 网 站 
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模式 DVD-VENDOR 有 14 个 元 素 : 11 个 属性 (如 id、title 和 year) 和 3 张 表 (如 
Movies) 。 模 式 AGGREGATOR 包含 5 个 元 素 : 4 个 属性 和 1 张 表 。 <<< 


5.1.1 语义 映射 


根据 第 3 章 的 描述 ， 语 义 映射 就 是 一 个 关联 模式 S 和 模式 了 的 查询 表达 式 。 根 据 数据 
源 描述 的 形式 化 方法 ,语义 映射 的 方向 可 以 有 所 不 同 。 


例 5.2 下 面 的 语义 映射 表达 的 含义 是 : 模式 DVD-VENDOR 中 关系 Movies 的 属性 
title 就 是 模式 AGGREGATOR 中 表 Items 的 属性 name, 


SELECT name as title 
FROM Items 


下 面 这 个 语义 映射 的 方向 则 刚好 相反 。 该 映射 表明 要 想得到 模式 AGGREGATOR 中 
K Items 的 属性 price ， 必 须 对 模式 DVD-VENDOR 中 的 表 Products 和 表 Locations 进行 连 
接 操作 。 


SELECT (basePrice * (1 + taxRate)) AS price 
FROM Products, Locations 
WHERE Products.saleLocID = Locations.lid 


前 面 的 两 个 映射 都 是 用 来 获得 一 个 关系 的 单个 属性 。 下 面 的 语义 映射 则 描述 了 如 何 从 
模式 DVD-VENDOR 中 的 数据 得 到 模式 AGGREGATOR 中 表 Items 的 整个 元 组 。 


SELECT title AS name, releaseDate AS releaseInfo, rating AS 
classification, basePrice * (1 + taxRate) AS price 
FROM Movies, Products, Locations 
WHERE Movies.id = Products.mid AND Products.saleLocID = Locations.lid << 


给 定 两 个 模式 3 和 了， 我 们 的 目标 就 是 创建 一 个 3S 和 了 之 间 的 语义 映射 。 


例 5.3 假设 我 们 想 构建 一 个 系统 ， 用 来 集成 两 个 数据 源 : DVD 供应 商 和 书籍 供应 
商 ， 源 模式 分 别 为 DVD- VENDOR 和 BOOK- VENDOR。 我 们 使 用 图 5- 1 中 的 模式 
AGGREGATOR 作 为 中 介 模 式 。 

如 果 使 用 全 局 视图 (GAV) 的 方法 来 关联 这 些 模 式 ， 就 需要 把 模式 AGGREGATOR 
的 关系 Items 描述 为 一 个 针对 源 模式 的 查询 。 我 们 创建 一 个 表达 式 mi 来 指定 如 何 从 模式 
DVD-VENDOR 的 元 组 得 到 表 Items 的 元 组 〈 例 5. 2 中 的 最 后 一 个 表达 式 ) ， 用 表达 式 m, 
来 表明 如 何 从 模式 BOOK-VENDOR 中 的 关系 来 获得 表 ltems 的 元 组 。 最 后 ， 用 SQL 查询 
(m, UNION m,) 作为 表 Items 的 GAV 描述 。 

如 果 使 用 局 部 视图 (LAV) 方法 ， 我 们 需要 为 源 模式 中 的 每 一 个 关系 创建 一 个 表达 
式 ， 用 来 确定 如 何 从 关系 Items 中 来 获得 相应 的 元 组 。 <<< 


5. 1.2 语义 匹配 


语义 匹配 的 主要 任务 是 将 模式 S 中 的 元 素 集合 与 模式 7 中 的 元 素 集合 相关 联 ， 但 并 没 
有 在 SQL 查询 的 级 别 上 详细 说 明 关 系 的 确切 性 质 。 最 简单 的 语义 匹配 是 一 对 一 匹配 (one- 
to-one), 4; 


122 


90 第 一 部 分 “数据 集成 技术 基础 


Movies.title ~ ltems.name 
Movies.year ~ Items.year 


Products.rating ~ Items.classification. 


比较 复杂 一 点 的 匹配 是 : 


Items.price ~ Products.basePrice * (1 + Locations.taxRate) 
我 们 称 这 种 匹配 为 一 对 多 匹配 (one-to-many) ， 因 为 它 将 模式 S 中 的 一 个 元 素 与 模式 7 中 
的 多 个 元 素 相 关联 。 相 反 ， 如 果 一 个 匹配 将 模式 S 中 的 多 个 元 素 与 模式 7 中 的 一 个 元 素 相 
关联 ， 则 称 为 多 对 一 匹配 (many-to-one)。 多 对 多 匹配 (many-to-many) 则 将 模式 S 中 的 
多 个 元 素 与 模式 了 中 的 多 个 元 素 相关 联 。 


5.1.3 ”模式 匹配 与 模式 映射 


为 了 创建 数据 源 描述 ， 我 们 一 般 先 创建 语义 匹配 ， 然 后 再 根据 这 些 匹 配 进 一 步 生成 映 
射 。 这 两 个 任务 分 别称 为 模式 匹配 和 模式 映射 。 

之 所 以 首先 创建 语义 匹配 ， 主 要 是 因为 语义 匹配 可 以 很 容易 地 从 设计 者 那里 得 到 。 例 
如 ， 设 计 者 根据 他 们 的 领域 知识 可 以 很 容易 地 知道 AGGREGATOR 中 的 属性 price 是 
DVD-VENDOR 中 的 属性 basePrice 和 属性 taxRate 的 函数 。 因 此 设计 者 就 可 以 得 到 这 样 
一 个 匹配 : price 二 basePrice + (1 +taxRate ) 。 

上 述 关 于 price 的 语义 匹配 确定 了 basePrice 和 taxRate 之 间 的 函数 关系 。 但 是 并 没 
有 指明 basePrice 的 哪 一 个 数据 值 应 该 与 taxRate 的 哪 一 个 数据 值 合 并 。 因 此 该 匹配 并 不 
能 用 来 获取 price 的 值 。 接 下 来 ， 模 式 映 射 系统 就 以 匹配 作为 输入 ， 然 后 通过 补充 一 些 缺 
失 的 详细 信息 得 到 语义 映射 。 

SELECT (basePrice * (1 + taxRate)) AS price 


FROM Product, Location 
WHERE Product.saleLocID = Location.lid 


上 述 语 义 匹 配 的 功能 是 : 对 于 来 自 表 Products 和 表 Locations 的 元 组 p Al gq, mH 
p. SaleLoclD =q. lid, 那么 就 可 以 将 元 组 p 中 属性 basePrice 的 值 x 与 元 组 g 中 属性 
taxRate 的 值 y 相 结合 ， 从 而 得 到 price 的 值 。 

因此 ， 从 某 种 意义 上 来 说 ， 设 计 者 可 以 通过 提供 语义 匹配 来 得 到 语义 映射 的 SELECT 
Fil FROM 子 句 。 接 下 来 的 模式 匹配 系统 只 需要 创建 WHERE 子 句 ， 这 比 从 头 开始 要 容易 
得 多 。 

实际 应 用 中 ， 寻 找 语义 匹配 非常 困难 。 因 此 ， 设 计 者 经 常 采 用 模式 匹配 系统 来 发 现 匹 
配 ， 对 匹配 进行 验证 和 修改 ， 然 后 采用 模式 映射 系统 将 匹配 变 成 映射 。 在 这 种 情况 下 ， 将 
整个 过 程 划 分 成 匹配 和 映射 两 个 阶段 非常 有 益 ， 因 为 它 人 允许 设计 者 对 匹配 进行 验证 和 修 
改 ， 从 而 降低 整个 过 程 的 复杂 性 。 


5.2 模式 匹配 和 模式 映射 的 挑战 


如 上 所 述 ， 一 个 模式 匹配 和 映射 系统 需要 协调 不 同 模式 之 间 的 异 构 性 。 异 构 性 有 多 种 
形式 。 首 先 ， 模 式 中 的 表 名 和 属性 名 可 能 不 同 ， 即 使 它们 代表 相同 的 概念 。 例 如 : 属性 
rating 和 属性 classification 都 代表 由 美国 电影 协会 为 电影 打 的 评分 。 其 次 ， 在 有 些 情 况 
F, 一 个 模式 中 的 多 个 属性 对 应 于 另 一 个 模式 中 的 一 个 属性 。 如 模式 vendor 中 的 属性 
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basePrice 和 属性 taxRate 被 用 来 计算 模式 AGGREGATOR 中 price 的 值 。 再 次 ， 模式 中 
表 的 组 织 方式 可 能 不 同 。 整 合 供应 商 只 需要 一 张 表 ， 而 DVD 供应 商 则 需要 3 张 表 。 最 后 ， 
两 个 模式 的 覆盖 范围 和 详细 程度 是 不 一 样 的 。DVD 供应 商 对 一 些 细节 信息 ， 如 release- 
Data 和 releaseCompay 进行 了 建 模 ， 而 整合 商 则 没有 。 

存在 语义 异 构 性 的 潜在 原因 是 ， 模 式 是 由 不 同 风 格 的 人 创建 的 。 我 们 在 比较 不 同 程序 

员 编写 的 计算 机 程序 时 也 发 现 了 这 种 现象 。 即 使 两 个 程序 员 写 的 程序 功能 完全 一 样 ， 但 是 
程序 的 结构 也 可 能 不 同 ， 变 量 的 命名 方式 也 可 能 不 一 样 。 另 一 个 异 构 性 的 本 质 原因 是 不 同 
数据 库 的 创建 目的 很 少 完全 一 致 。 在 我 们 给 出 的 例子 中 ， 即 使 两 个 模式 都 是 对 movies H 
行 建 模 的 ,但 DVD 供应 商 主要 管理 库存 ， 而 整合 商 则 只 关心 面向 客户 的 一 些 属性 。 

解决 模式 之 间 的 语义 异 构 性 是 比较 困难 的 ， 主 要 原因 如 下 所 示 。 

。 语义 并 不 是 全 部 从 模式 中 得 到 ”为 了 在 模式 之 间 进 行 正确 的 映射 ,模式 映射 系统 
就 需要 理解 每 个 模式 的 可 能 语义 。 然 而 ， 模 式 本 身 并 不 能 够 完整 描述 其 全 部 语义 。 
一 个 模式 就 是 一 些 符号 的 集合 ， 这 些 符 号 代表 设计 者 心中 的 一 些 模型 ， 但 是 并 不 
能 够 反映 模型 的 全 部 信息 。 例 如 ， 模 式 DVD-VENDOR 中 属性 rating 的 名 字 并 不 
能 够 反映 该 rating 是 由 美国 电影 协会 给 出 的 ， 而 不 是 由 顾客 给 出 的 。 有 时 候 ， 模 
式 的 元 素 可 能 关联 一 些 文本 描述 。 然 而 ， 这 些 描述 充其量 只 是 一 些 局 部 信息 ， 甚 
至 是 一 些 自然 语言 ， 这 样 程 序 就 很 难 理 解 。 

。 有 些 模式 信息 可 能 是 不 可 靠 的 ”既然 从 模式 中 不 能 够 得 到 全 部 语义 ， 那 么 模式 映 
射 系 统 就 需要 收集 足够 的 模式 语义 信息 ， 这 些 信息 可 以 有 两 种 来 源 : 一 是 正式 规 
范 的 ， 如 名 字 、 结 构 、 类 型 和 数据 值 ; 二 是 与 模式 关联 的 其 他 线索 ， 如 文本 描述 
以 及 模式 的 使 用 方法 。 然 而 ， 这 些 正 式 规 范 和 其 他 线索 信息 可 能 是 不 可 靠 的 。 两 
个 模式 可 能 有 相同 的 名 字 ， 但 是 却 代表 两 个 完全 不 同 的 概念 。 例 如 : 模式 DVD- 
VENDOR 中 的 属性 name 表示 销售 地 点 的 名 字 ， 而 模式 AGGREGATOR 中 的 属 
性 name 则 表示 电影 的 名 字 。 相 反 ， 具 有 不 同名 字 的 两 个 属性 也 可 能 代表 相同 的 
概念 ， 如 rating 和 classification 。 

。 预期 的 语义 可 能 是 主观 的 “有 时 候 很 难 确定 两 个 属性 是 否 匹 配 。 例 如 ， 一 个 设计 
者 可 能 认为 属性 plot-summary (情节 摘要 ) 与 属性 plot-synopsis (情节 梗概 ) 
匹配 ， 而 另外 一 个 设计 者 可 能 认为 不 匹配 。 在 有 些 模 式 映射 应 用 中 (如 军事 领 
域 ) ， 经 常会 有 专家 委员 会 对 这 些 事情 进行 投票 表决 。 

。 正确 地 合并 数据 比较 困难 “不仅 发 现 语义 匹配 比较 困难 ， 而 且 把 匹配 变 成 映射 也 
比较 困难 。 从 匹配 到 映射 的 过 程 中 ， 设 计 者 必须 找到 一 个 正确 的 方法 来 合并 不 同 
属性 的 数据 值 ， 经 常 使 用 具有 各 种 过 滤 条 件 的 连接 操作 。 以 下 面 的 语义 匹配 为 例 ， 

Items.price ~ Products.basePrice * (1 + Locations.taxRate) 

从 上 述 匹 配 为 price 创建 映射 时 ， 设 计 者 必须 确定 如 何 对 表 Products 和 表 
Locations 进行 连接 ， 以 及 连接 结果 中 是 否 需 要 过 滤 条 件 。 事 实 上 ， 任 意 两 个 表 
之 间 可 能 存在 多 种 连接 路 径 ， 即 便 设 计 者 选 定 了 一 个 连接 路 径 ， 仍 然 存在 很 多 种 
不 同 的 执行 方法 〈 如 全 外 连接 、 左 外 连接 、 右 外 连接 、 内 连接 等 ) 。 为 了 确定 哪个 
合并 是 正确 的 ， 设 计 者 必须 检查 大 量 的 数据 ， 这 个 过 程 比较 容易 出 错 ， 并 且 比 较 
费时 费力 。 
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关于 标准 的 注意 事项 

很 多 人 会 认为 异 构 性 问题 最 直观 的 解决 方案 是 为 每 一 个 可 能 的 领域 创建 一 个 标准 ， 并 
鼓励 数据 库 设 计 者 都 遵循 这 些 标准 。 不 幸 的 是 ， 这 种 方法 在 实际 应 用 中 由 于 种 种 原因 而 无 
法 奏效 。 由 于 一 些 组 织 或 单位 已 经 有 一 些 固定 的 模式 ， 没 有 足够 的 动力 去 进行 标准 化 ， 所 
以 就 很 难 在 标准 上 达成 一 致意 见 。 更 为 重要 的 是 ， 如 果 使 用 数据 的 目的 一 致 ， 创 建 统一 的 
标准 还 是 有 可 能 的 。 但 是 ， 如 前 面 的 例子 所 描述 的 那样 ， 数 据 的 用 途 很 不 相同 ， 相 应 的 模 
式 也 不 相同 。 

标准 化 的 第 二 个 挑战 是 精确 地 描述 域 的 难度 。 域 从 哪儿 开始 ， 到 哪儿 结束 ? 例如， 假 
设想 为 人 这 个 域 创建 一 个 标准 。 当 然 ， 标 准 中 应 该 包括 一 些 属性 : 姓名 、 地 址 、 电 话 号 码 
和 可 能 的 老板 。 然 而 ， 除 了 这 些 属性 以 外 ， 其 他 属性 就 存在 质疑 。 人 们 可 能 会 扮演 很 多 角 
E, WRITE, FE 〈 或 毕业 生 ) 、 银 行 账户 持 有 人 、 观 众 和 顾客 。 每 一 种 角色 都 可 以 为 标 
准 增加 多 个 属性 ， 但 是 全 部 包含 进来 显然 是 不 切实 际 的 。 另 一 个 例子 是 ， 考 虑 对 科学 信息 
进行 建 模 ， 从 基因 和 蛋白质 开始 。 除 此 之 外 ， 我 们 还 需要 对 其 他 信息 进行 建 模 ， 包 括 与 基 
因 和 和 蛋白 质 关 联 的 疾病 、 与 疾病 相关 的 药物 、 与 疾病 相关 的 科学 文献 报告 的 调查 结果 等 。 
我 们 不 知道 该 域 到 底 应 该 在 何 处 结束 。 

实际 上 ， 标 准 的 应 用 范围 非常 有 限 ， 只 有 当 属 性 数目 比较 少 并 且 大 家 急需 达成 一 致 的 情 
况 下 才 会 有 用 (数据 交换 对 业务 流程 比较 重要 的 情况 ) 。 具 体 实例 还 包括 银行 之 间或 者 电子 
商务 中 需要 交换 的 数据 、 有 关 病 人 生命 体征 的 医疗 数据 。 即 使 在 这 些 情况 下 ， 这 些 数 据 可 能 
会 在 一 个 标准 的 模式 中 共享 ， 但 是 每 一 个 数据 源 内 部 仍然 采用 不 同 的 模式 进行 建 模 。 

在 继续 往 下 讨论 之 前 ， 我 们 需要 强调 的 是 异 构 性 不 仅 出 现在 模式 级 别 ， 而 且 在 数据 级 
别 上 也 存在 异 构 性 。 例 如 ， 两 个 数据 库 都 包含 一 个 属性 列 companyName， 但 是 却 使 用 
了 不 同 的 字符 串 来 代表 同一 个 公司 (如 ，IBM 与 International Business Machines 或 者 HP 与 
Hewlett Packard) 。 我 们 把 数据 级 别 的 异 构 性 推迟 到 第 7 章 进行 讨论 。 


5.3 匹配 和 映射 系统 概述 


我 们 首先 列 出 匹配 和 映射 系统 的 不 同 模块 。 接 下 来 ， 在 不 产生 混淆 的 情况 下 ， 我 们 将 
“匹配 ”和 “对 应 ”两 个 术语 互 换 使 用 。 


5.3.1 模式 匹配 系统 


模式 匹配 系统 的 主要 目的 就 是 在 两 个 给 定 的 模式 S$ 和 7 了 之 间 产 生 一 个 匹配 ( 即 ， 对 
应 ) 的 集合 。 其 中 一 种 解决 方案 就 是 可 以 为 设计 者 提供 一 个 方便 的 图 形 用 户 界面 ， 然 后 手 
动 地 指定 对 应 关系 ， 但 是 本 章 主 要 关注 于 如 何 自动 地 构建 这 些 对 应 关系 ， 然 后 再 由 设计 者 
进行 验证 。 

我 们 首先 从 一 对 一 匹配 的 匹配 系统 开始 ， 如 title~name, rating ~ classification, 
从 DVD 的 例子 中 可 以 看 出 ， 没 有 一 个 单一 的 启发 式 可 以 确保 产生 正确 的 匹配 。 启 发 式 集 
合 一 般 都 是 基于 模式 元 素 的 名 字 之 间 的 相似 度 。 根 据 这 些 启 发 式 ， 可 以 推断 出 模式 AG- 
GREGATOR 中 的 属性 releaselnfo 可 能 与 模式 DVD-VENDOR 中 的 属性 releaseDate 匹 
配 ， 也 可 能 与 属性 releaseCompany 匹配 ,但 是 我 们 不 确定 到 底 是 哪 一 个 。 
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当 数 据 可 用 时 ， 另 一 个 启发 式 集合 可 以 检测 数据 之 间 的 相似 度 。 例 如 ， 假 设 relea- 
selnfo 和 releaseData 都 代表 DVD 的 发 行 年 份 。 通过 检查 数据 值 ， 可 以 推断 出 
releaselnfo 可 能 与 表 Products 中 的 属性 releaseDate 匹配 ， 或 者 与 表 Movies 中 的 属性 
year 匹配 ， 但 是 同样 不 知道 具体 和 哪 一 个 匹配 。 另 外 ， 我 们 还 可 以 参考 的 线索 包括 属性 
之 间 的 近似 程度 或 者 属性 在 查询 中 是 如 何 使 用 的 。 但 是 ， 任 何 一 个 线索 本 身 都 无 法 对 所 有 
的 属性 产生 较 好 的 匹配 。 

另 一 方面 ， 可 以 合并 多 种 线索 来 提高 匹配 的 准确 度 。 例 如 ， 通 过 检查 属性 名 字 和 属性 
值 ， 我 们 可 以 推断 出 属性 releaselnfo 与 属性 releaseDate 匹配 的 可 能 性 比 releaseCom- 
pany 和 year K, 

由 于 可 用 的 线索 和 启发 式 比 较 多 ， 
并 且 还 需要 对 匹配 的 准确 度 进行 最 大 
化 ， 所 以 这 些 要 求 就 促使 我 们 必须 构建 
一 个 模式 匹配 系统 架构 ， 如 图 5-2 Bras, 
一 个 典型 的 模式 匹配 系统 包括 以 下 几 个 
模块 。 

e CER (A> WEEE): 

匹配 器 以 两 个 模式 S 和 了 作为 
输入 ,然后 输出 一 个 相似 度 甜 


阵 ， 该 矩阵 为 5 和 了 的 每 一 个 


元 素 对 赋 一 个 0 ~ 工 之 间 的 数 图 5-2 一 个 典型 的 模式 匹配 系统 的 模块 图 

值 。 数 值 越 高 ， 匹 配器 认为 匹 

配 ;二 t 正确 的 把 握 就 越 大 。 每 一 个 匹配 器 都 建立 在 一 个 特定 的 启发 式 集合 上 ， 并 
且 考 虑 了 特定 类 型 的 线索 。 例 如 ， 一 个 匹配 器 可 能 比较 了 模式 元 素 名 字 之 间 的 相 
似 度 ， 而 另 一 个 匹配 器 则 对 数据 值 进 行 了 比较 。 匹 配 系统 一 般 采 用 多 个 这 样 的 匹 
配器 ， 我 们 将 在 5. 4 节 介 绍 几 种 常见 的 匹配 器 。 

e 组 合 器 (#4 x: xE EEE): 组 合 器 将 多 个 匹配 器 输出 的 多 个 相似 度 矩 阵 合 
并 成 一 个 。 组 合 器 可 以 取 平 均值 、 最 小 值 、 最 大 值 ， 或 相似 度 得 分 的 加 权 和 。 更 
复杂 类 型 的 组 合 器 可 以 使 用 机 器 学 习 技 术 或 者 采用 手工 脚本 。 我 们 将 在 5.5 节 介 
绍 几 种 类 型 的 组 合 器 。 

e 约束 执行 器 (矩阵 x 约束 一 矩阵 ) ; 除了 线索 和 启发 式 之 外 ， 领 域 知识 在 过 滤 候 选 
匹配 中 也 起 着 重要 的 作用 。 例 如 ， 如 果 我 们 知道 很 多 电影 名 字 包 含 4 个 或 者 更 多 
的 单词 ， 而 地 点 名 字 则 不 是 ， 这 样 就 有 助 于 我 们 猜测 属性 Items. name 和 Mov- 
ies. title 匹配 的 可 能 性 要 大 于 和 Locations. name 匹配 的 可 能 性 。 因 此 ， 模式 匹 
配 系 统 的 第 三 个 模块 就 是 约束 执行 器 ， 它 可 以 把 这 些 约束 施加 到 候选 匹配 上 。 约 
束 执行 器 可 以 把 组 合 器 产生 的 相似 度 矩 阵 转换 为 另 一 个 矩阵 ， 使 其 能 够 更 好 地 反 
映 真 实 的 相似 度 。 我 们 将 在 5.6 节 介 绍 如 何 施加 约束 。 

© 匹配 选择 器 (和 矩阵 一 匹配 ): 匹配 系统 的 最 后 一 个 模块 是 从 约束 执行 器 输出 的 相似 
度 和 矩阵 产生 匹配 。 最 简单 的 选择 策略 是 阔 值 法 : 相似 度 分 数 大 于 给 定 阔 值 的 所 有 
模式 的 元 素 对 都 可 以 作为 匹配 返回 。 比 较 复 杂 的 策略 包括 可 以 把 选择 问题 形式 化 
为 加 权 二 分 图 上 的 优化 问题 。 我 们 将 在 5. 7 节 介 绍 常见 的 选择 器 。 
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模式 匹配 的 任务 往往 是 不 断 重 复 的 ， 如 把 一 个 中 介 模 式 与 数 十 个 或 数 百 个 数据 源 模 
式 进行 匹配 。5. 8 节 介 绍 了 一 些 基于 机 器 学 习 技术 的 方法 ， 这 些 方法 可 以 使 匹配 系统 能 
够 重用 前 面 的 匹配 ， 即 可 以 从 以 前 的 匹配 中 进行 学 习 从 而 匹配 新 的 模式 。5. 9 节 将 介绍 
如 何 发 现 比较 复杂 的 语义 匹配 ， 与 发 现 一 对 一 匹配 的 系统 架构 相 比 ， 需 要 更 为 复杂 的 匹 
配 架构 。 


5.3.2 ”模式 映射 系统 


一 旦 得 到 匹配 后 ， 接 下 来 的 任务 就 是 创建 实际 的 映射 。 最 主要 的 挑战 在 于 如 何 将 一 个 
数据 源 的 元 组 转换 为 其 他 数据 源 的 元 组 。 例 如 ， 当 我 们 计算 表 ltems 中 的 属性 price 时 ， 
映射 需要 明确 指出 我 们 需要 对 表 Products 和 表 Locations 进行 连接 操作 ， 连 接 的 条 件 是 
saleLocation =name， 并 且 还 要 添加 适当 的 地 方 税 。 该 部 分 面临 的 主要 挑战 是 可 能 存在 
多 种 不 同 的 连接 方法 。 例 如 ， 我 们 可 以 把 Products 和 Movies 进行 连接 ， 从 而 获得 导演 
的 出 身 ， 并 根据 导演 出 生 国家 的 税率 计算 price 的 值 。 

在 5. 10 节 中 ， 我 们 将 介绍 映射 系统 如 何 探索 可 能 的 连接 路 径 和 数据 合并 的 方法 ， 同 
时 也 将 介绍 映射 系统 如 何 通过 提供 最 可 能 的 操作 和 创建 实际 的 转换 来 帮助 设计 者 。 


5.4 匹配 器 


匹配 器 的 输入 是 一 对 模式 S 和 了 。 除 此 之 外 , 匹配 器 还 可 以 考虑 任何 其 他 可 用 的 信 
息 ， 如 数据 实例 、 文 本 描述 等 。 匹 配器 输出 一 个 相似 度 矩 阵 ， 该 矩阵 为 S 和 了 中 的 每 一 个 
TCR (s, 1) 赋 一 个 0~1 之 间 的 数值 ， 用 来 预测 s 是 否 与 上 匹配 。 

还 有 很 多 技术 可 以 用 来 猜测 模式 元 素 之 间 的 匹配 ， 每 一 种 技术 基于 不 同 的 启发 式 和 线 
索 集 合 。 在 本 节 中 ， 我 们 将 介绍 几 种 常见 的 基本 匹配 器 。 主 要 包括 两 类 匹配 器 : 一 类 主要 
比较 模式 元 素 的 名 字 ， 另 一 类 主要 比较 数据 实例 。 有 一 点 需要 牢记 在 心 的 是 ， 对 于 某 些 特 
定 的 领域 ， 常 常 需要 设计 更 专业 、 有 效 的 匹配 器 。 


5.4.1 名 字 匹 配器 


一 个 直观 的 匹配 启发 式 来 源 是 基于 元 素 名 字 的 比较 ， 并 希望 这 些 名 字 能 够 表达 元 素 的 
真实 语义 。 然 而 ， 由 于 名 字 的 命名 方式 很 难 完全 一 致 ， 所 以 就 需要 找到 一 个 有 效 的 相似 度 
度量 来 反映 元 素 含义 的 相似 度 。 原 则 上 ， 第 4 章 中 介绍 的 所 有 用 于 字符 串 匹 配 的 技术 都 可 
以 用 于 名 字 匹 配 ， 如 编辑 距离 Jaccard 度量 ， 或 声音 表示 (Soundex) 算法 。 

元 素 的 名 字 经 常 由 首 字母 缩写 词 或 者 短语 组 成 ， 因 此 ， 在 应 用 相似 度 度量 之 前 ， 对 元 
素 名 字 进 行规 范 化 十 分 有 用 。 接 下 来 ,我 们 会 介绍 几 种 常见 的 规范 化 过 程 ， 需 要 指出 的 是 
有 些 方法 需要 特定 领域 的 词典 。 

。 根据 一 些 特定 的 分 隔 符 对 名 字 进 行 分 割 ， 如 大 写字 母 、 数 字 或 者 一 些 特殊 字符 。 
例如 ;saleLoclD 可 以 分 割 成 sale、Loc 和 ID，agentAddressl 可 以 分 割 成 
agent、Address 和 1。 

© 扩展 某 些 已 知 的 缩 略 词 或 者 首 字母 缩写 词 。 例 如 ，Loc 可 以 扩展 成 Location, 
cust 可 以 扩展 成 customer。 

© 用 同义词 对 字符 串 进行 扩展 。 如 cost 可 以 扩展 成 price, 
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e。 用 上 位 词 对 字符 串 进行 扩展 。 如 product a LH R book, dvd, cd, 
e 删除 冠 词 、 介 词 和 连词 ， 如 in 、at、and 。 


例 5.4 再 次 以 两 个 模式 DVD- VENDOR 和 AGGREGATOR 为 例 ， 为 了 便于 说 明 ， 
这 两 个 模式 被 重新 改写 成 图 5-3a 中 的 形式 。 为 了 对 这 两 个 模式 进行 匹配 ， 我 们 可 以 采用 
一 个 基于 名 字 的 匹配 器 对 模式 元 素 的 名 字 进 行规 范 化 ， 然 后 再 用 基于 集合 的 相似 度 度 量 来 
计算 名 字 之 间 的 相似 度 ， 如 Jaccard 度量 或 者 TFVIDF 上 度量。 
图 5-3b 显示 了 由 基于 名 字 的 匹配 器 产生 的 相似 度 抵 阵 。 该 图 以 压缩 的 方式 来 展示 该 
和 矩阵， 仅仅 显示 相似 度 分 数 大 于 0 的 模式 元 素 对 ， 并 按照 第 一 个 属性 对 这 些 元 素 进 行 分 
组 。 第 一 组 ，name 二 < name: 1, title: 0.2 > ， 表 明 模 式 AGGREGATOR 中 的 属性 
name 与 模式 DVD-VENDOR 中 的 属性 name 的 匹配 度 为 1， 与 模式 DVD-VENDOR 中 的 
属性 title 的 匹配 度 为 0.2。 剩 下 的 两 组 也 可 以 采用 同样 的 方式 来 解释 。 





DVD-VENDOR 

Movies(id, title, year) 

Products(mid, releaseDate, releaseCompany, basePrice, rating, saleLocID) 
Locations(lid, name, taxRate) 


AGGREGATOR 
Items(name, releaseinfo, classification, price) 





a) 


名 字 匹 配器 : name © (name: 1, title: 0.2) 
releaselnfo © (releaseDate: 0.5, releaseCompany: 0.5) 


price © (basePrice: 0.8) 
b) 


数据 匹配 器 : name ~ (name: 0.2, title: 0,8) 
releaselnfo © (releaseDate: 0.7) 
classification % (rating: 0.6) 
price © (basePrice: 0.2) 

c) 


均值 组 合 器 : name % (name: 0.6, title: 0.5) 
releaselnfo © (releaseDate: 0.6, releaseCompany: 0.25) 
classification © (rating: 0.3) 
price © (basePrice: 0.5) 
d) 





gin 





图 5-3 a) 产生 自 图 5-1 的 两 个 模式 ; b) c) 针对 上 述 两 个 模式 ， 
由 两 个 匹配 器 产生 的 相似 度 和 矩阵 ; d) 合并 的 相似 度 和 矩阵 


<<< 

针对 上 述 所 有 技术 ， 我 们 始终 都 要 记得 模式 中 的 元 素 名 字 不 一 定 能 够 表达 元 素 的 全 部 语 
义 。 一 般 情 况 下 ， 元 素 名 字 会 有 歧义 ， 因 为 它们 已 经 假设 了 一 个 特定 的 场景 ， 并 且 认 为 能 表 
达 真 实 语义 。 一 个 比较 特殊 的 具有 歧义 的 元 素 名 字 的 例子 就 是 name, name 有 时 可 以 代表 
一 本 书 或 者 一 部 电影 ， 也 有 可 能 代表 一 个 人 或 者 一 个 动物 ， 甚 至 可 能 代表 基因 、 化 学 物品 或 
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产品 。 事实 上 ,模式 可 以 由 多 种 语言 来 撰写 ， 也 可 以 使 用 多 种 不 同 的 本 地 或 行业 规范 ， 这 就 
使 得 歧义 问题 更 为 严重 。 当 然 ， 在 很 多 情况 下， 模式 设计 者 并 没有 预测 到 他 们 的 数据 需要 
和 其 他 数据 进行 集成 ， 因 此 ， 除 了 当下 的 需求 之 外 ， 他 们 也 没有 仔细 考虑 元 素 的 名 字 。 


5.4.2 实例 匹配 器 


数据 实例 往往 可 以 表达 模式 元 素 的 大 量 语义 信息 。 接 下 来 将 介绍 几 种 常见 的 技术 ， 这 
些 技术 通过 对 数据 值 的 分 析 来 预测 匹配 。 但 需要 注意 的 是 并 不 是 所 有 的 模式 匹配 场景 都 有 
权 访 问 实例 数据 。 


BURA GE 

第 一 种 技术 是 创建 识别 器 ， 识 别 器 可 以 采用 词典 或 者 规则 来 识别 一 些 特定 类 别 属 性 的 
数据 值 。 以 模式 AGGREGATOR 中 的 属性 classification 为 例 。 该 属性 的 识别 器 采用 一 个 
小 的 词典 ， 词 典 列 出 了 属性 classification 的 所 有 可 能 值 (G，PG，PG-13，R 等 ) 。 给 定 
一 个 新 属性 ， 如 果 它 的 大 部 分 值 都 出 现在 词典 中 ， 那 么 识别 器 就 可 以 认为 该 新 属性 很 可 能 
与 属性 classification 匹配 。 其 他 的 例子 包括 使 用 词典 来 识别 美国 的 州 、 城 市 、 基 因 、 蛋 
白质 ， 以 及 使 用 相对 简单 的 规则 来 识别 价格 和 邮政 编码 。 

通常 情况 下 ， 对 于 两 个 给 定 的 模式 $ 和 T， 匹 配器 会 为 S 的 每 一 个 元 素 * 构建 一 个 相似 度 
和 矩阵。 在 该 矩阵 中 ， 每 一 个 单元 格 (s，t;) 被 赋予 一 个 相似 度 得 分 ， 上 代表 模式 7 的 任意 一 个 
元 素 。 其 他 单元 格 都 被 赋 一 个 特殊 的 值 “na”， 因 为 识别 器 没有 对 这 些 单元 格 进行 预测 。 


BE UA AHS BE 

ARORA MRC BE, BORAT VAR ABI Ae Sap, pe ee ST 
域 的 值 来 自 于 一 些 有 限 域 ， 如 电影 评分 、 电 影 名 字 或 者 国家 名 字 。jJaccard 度量 是 常用 的 方 
法 〈 参 见 第 4 章 )。 


例 5.5 为 了 对 模式 DVD-VENDOR 和 模式 AGGREGATOR 进行 匹配 ， 我 们 可 以 采 
用 一 个 数据 匹配 器 ， 该 匹配 器 可 以 用 Jaccard 度量 来 测量 值 的 重 和 至 度 。 图 5-3c 显示 了 数据 
匹配 器 产生 的 相似 度 和 矩阵 ， 该 矩阵 也 是 压缩 格式 的 。 

考虑 输出 的 第 一 组 name= <name: 0.2, title: 0. 8 > 。 模 式 AGGREGATOR 中 的 
属性 name (代表 DVD 的 名 字 ) 与 DVD-VENDOR 中 的 属性 name (代表 销售 地 点 的 名 


F) 的 共同 值 很 少 ， 因 此 二 者 的 相似 度 得 分 就 比较 低 (0.2)。 相 反 ，name 与 title ( 指 
DVD 的 名 字 ) 的 共同 值 比较 多 ， 因 此 相似 度 得 分 比较 高 (0. 8)。 <<< 
HARK ae 


第 三 种 技术 是 在 一 个 模式 上 构建 分 类 器 ， 然 后 用 该 分 类 器 来 对 其 他 模式 的 元 素 进行 分 
类 。 常 用 的 分 类 器 技术 包括 朴素 贝 叶 斯 、 决 策 树 、 规 则 学 习 和 支持 向 量 机 。5. 8 节 将 详细 
介绍 分 类 器 技术 ， 这 里 只 介绍 一 个 简单 的 例子 。 对 于 模式 S 的 每 一 个 元 素 s;,， 我 们 都 训练 
一 个 分 类 器 C; 来 识别 * 的 实例 。 为 了 完成 该 任务 ， 需 要 一 个 包含 正 例 和 反例 的 训练 集 。 
我 们 以 s; 的 所 有 数据 实例 (可 以 得 到 的 ) 作为 训练 集 的 正 例 ， 以 模式 $ 的 其 他 元 素 的 所 有 
实例 作为 反例 。 
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得 到 分 类 器 以 后 ， 就 可 以 用 该 分 类 器 来 计算 模式 S 的 元 素 s; 与 模式 7 了 的 元 素 之 间 的 
相似 度 。 对 于 i 的 每 一 个 数据 实例 ， 分 类 器 C; 都 会 产生 一 个 0 ~ 1 之 间 的 数值 ， 该 数值 反 
映 了 该 数据 实例 也 是 *; 实例 的 置信 度 。 我 们 通过 对 置信 度 进行 聚集 得 到 一 个 新 的 数值 ， 该 
数值 就 可 以 作为 s; 和 4 的 相似 度 。 比 较 简单 的 聚集 方法 就 是 取 置 信和 度 的 平均 值 。 


例 5.6 W s; Æ address, 那么 正 例 可 能 包括 “Madison WI” 和 “Mountain View 
CA,”， 反 例 可 能 包括 “ (608) 695 9813” 和 “Lord of the Rings. ”。 假 设 元 素 t, 是 loca- 
tion ， 可 以 访问 的 数据 实例 包括 “Milwaukee WI,”、 “Palo Alto CA,” 和 “Philadelphia 
PA. ”。 分 类 器 C; 可 以 预测 3 个 置信 和 度 ， 分 别 为 0.9、0.7 和 0.5。 这 种 情况 下 ， 我 们 就 可 
以 用 置信 度 的 平均 值 0.7 作为 ;;, = address Fil 1, = location 之 间 的 相似 度 得 分 。 <<< 


实际 应 用 中 ,设计 者 可 以 决定 哪个 模式 扮演 模式 5 的 角色 〈 构 建 分 类 器 的 模式 ) ， 哪 
个 模式 扮演 模式 7 的 角色 〈 对 其 数据 实例 应 用 分 类 器 的 模式 ) 。 例 如 ， 如 果 一 个 模式 是 中 
介 模 式 〈 如 模式 AGGREGATOR) ， 那 么 就 比较 适合 在 该 模式 上 构建 分 类 器 。 这 样 ， 当 我 
们 把 中 介 模 式 与 其 他 新 的 数据 源 模式 进行 匹配 时 ， 就 可 以 重用 这 些 分 类 器 。 

在 某 些 特定 情况 下 ， 如 对 概念 的 分 类 进行 匹配 ， 我 们 可 能 需要 从 两 个 方向 来 做 : 在 分 
类 S 上 构建 分 类 器 ， 用 该 分 类 器 对 了 的 实例 进行 分 类 ; 然后 在 分 类 了 上 构建 分 类 器 ， 在 对 
5 的 实例 进行 分 类 。 人 参考 文献 注释 针对 这 种 情况 提供 了 一 些 其 他 信息 ， 并 介绍 了 一 些 其 他 
技术 ， 通 过 检查 数据 值 来 对 模式 进行 匹配 。 


5.5 组 合 匹配 预测 


组 合 器 的 主要 任务 是 将 匹配 器 输出 的 多 个 相似 度 和 矩阵 合并 成 一 个 。 简 单 的 组 合 器 可 以 
取得 分 的 均值 、 最 小 值 或 者 最 大 值 。 如 果 匹 配 系统 采用 个 匹配 器 来 预测 s, 和 卢 的 相似 度 
得 分 ， 那 么 均值 组 合 器 就 可 以 采用 如 下 的 公式 来 计算 两 个 元 素 之 间 的 相似 度 得 分 : 


k 
combiner(i,j) = | > matcherScore(m,ji,/) |/# 
(m=1) 


HH, matcherScore(m, i, j) 是 第 风 个 匹配 器 输出 的 s; Alt, 的 相似 度 得 分 。 最 小 组 合 器 
采用 多 个 匹配 器 输出 的 s; Ae, 的 相似 度 得 分 的 最 小 值 作为 % A t, 的 相似 度 得 分 ， 最 大 组 合 
器 则 取 相 似 度 得 分 的 最 大 值 作为 % Fil t; 的 相似 度 得 分 。 


例 5.7 在 例 5.5 中 ,图 5-3d 显示 了 由 均值 组 合 器 输出 的 相似 度 和 矩阵 ， 该 矩阵 是 通过 
合并 名 字 匹 配器 输出 的 矩阵 〈 见 图 5-3b) 和 数据 匹配 器 输出 的 矩阵 (ILA 5-3c) 而 得 到 。 


<<< 


当 没 有 足够 的 理由 来 对 匹配 器 进行 选择 时 ， 我 们 可 以 使 用 均值 匹配 器 。 当 我 们 比较 信 
任 匹 配器 中 的 强 信号 时 ， 最 大 组 合 器 比较 适合 。 也 就 是 说 ， 如 果 匹 配器 输出 一 个 较 高 的 
值 ， 那 么 我 们 就 认为 两 个 元 素 匹配 的 可 能 性 比较 大 。 在 这 种 方式 中 ， 如 果 其 他 的 匹配 器 比 
较 中 立 ， 那 么 强 信号 就 会 反映 在 合并 信息 中 。 当 我 们 比较 保守 时 ， 可 以 使 用 最 小 匹配 器 。 
也 就 是 说 ， 为 了 得 到 一 个 匹配 ， 需 要 从 所 有 的 匹配 器 中 得 到 较 高 的 相似 度 得 分 。 

更 为 复杂 的 组 合 器 类 型 是 使 用 手工 脚本 。 例 如 ， 该 脚本 可 能 指明 如 果 * = address， 那 么 
就 返回 采用 朴素 贝 叶 斯 分 类 技术 的 数据 匹配 器 的 得 分 ; 否则 ， 就 返回 所 有 匹配 器 的 平均 值 。 
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另 一 种 比较 复杂 的 组 合 器 是 加 权 组 合 器 ， 根 据 其 重要 性 不 同 ， 为 每 一 个 组 合 器 赋 一 个 
权重 。 虽 然 有 些 情 况 下 领域 专家 可 以 提供 这 些 权 重 ， 但 是 在 很 多 情况 下 权重 比较 难 确 定 。 
此 外 ， 权 重 还 可 能 因为 待 匹配 的 元 素 特征 的 不 同 而 不 同 。5. 8 节 将 介绍 一 些 通过 检查 模式 
匹配 系统 的 行为 来 学 习 适 当权 重 的 技术 。 


5.6 施加 域 完整 性 约束 


在 进行 模式 匹配 的 过 程 中 ， 设 计 者 一 般 都 拥有 一 些 领域 知识 ， 这 些 领域 知识 可 以 表示 
为 域 完整 性 约束 。 约 束 执行 器 可 以 通过 这 些 约束 来 过 滤 一 些 特定 的 匹配 组 合 。 从 概念 上 来 
讲 ， 执 行 器 需要 搜索 由 组 合 器 产生 的 所 有 匹配 组 合 空间 ， 从 而 找到 一 个 能 够 满足 约束 条 件 
的 最 大 聚集 置信 度 。 下 面 的 例子 反映 了 上 述 思 想 。 


例 5.8 例 5.7 中 的 均值 组 合 器 产生 的 相似 度 和 矩阵 为 


name ~ (name : 0.6, title : 0.5) 
releaselnfo ~ (releaseDate : 0.6, releaseCompany : 0,25) 
classification ~ (rating : 0.3) 
price ~ (basePrice : 0.5) 

在 该 矩阵 中 ， 属 性 name 和 属性 releaselnfo 各 有 两 个 可 能 的 匹配 ， 于 是 就 产生 了 4 种 可 
能 的 匹配 组 合 ， M, ~M,。 第 一 个 组 合 是 匹配 集合 M, : 
|name~name, releaselnfo~releaseDate, classification =rating, price ~basePrice} 
#4 M, 中 name 5 title 匹配 ， 其 他 和 M, 一 样 。 

对 于 每 一 个 匹配 组 合 M; ， 我 们 可 以 计算 一 个 聚集 得 分 ， 该 得 分 可 以 反映 组 合 器 认为 
M, 正确 的 置信 和 度 。 直 观 的 方法 就 是 将 组 合 M, 中 所 有 匹配 的 得 分 相 乘 ， 但 是 这 需要 假设 各 
个 得 分 是 独立 产生 的 。 按 照 这 种 方法 ， 组 合 Wi 的 得 分 是 0.6 x0. 6 x0.3 x0.5=0.054， 组 
合 M, 的 分 数 是 0.5 x0.6 x0.3 x0.5 =0. 045, 

现在 假设 设计 者 知道 模式 AGGREGATOR 中 的 属性 name 代表 电影 名 字 ， 并 且 很 多 
电影 名 字 至 少 包含 4 个 单词 。 这 样 就 可 以 指定 这 样 一 个 约束 “如 果 属 性 4 与 name 匹配 ， 
ABA, 在 4 的 100 个 值 的 任何 一 个 随机 样本 中 ， 至 少 有 10 值 必须 包含 4 个 以 上 的 单词 。” 

约束 执行 器 需要 搜索 满足 上 述 约束 条 件 的 具有 最 大 得 分 的 匹配 组 合 。 一 个 简单 的 方法 
就 是 首先 检查 得 分 最 大 的 组 合 ， 然 后 再 检查 具有 第 二 大 得 分 的 组 合 ， 以 此 类 推 ， 直 到 找到 
满足 约束 的 组 合 。 在 我 们 的 例子 中 ， 具 有 最 高 得 分 的 组 合 是 M,. M, 表明 模式 DVD-VEN- 
DOR 中 的 属性 name 与 AGGREGATOR 中 的 属性 name 匹配 。 由 于 模式 DVD-VENDOR 
中 的 属性 name 指 的 是 销售 地 点 的 城市 名 ， 所 以 大 部 分 数据 少 于 4 个 单词 。 这 样 ， 执 行 器 
很 快 就 能 发 现 M, 不 满足 约束 。 

执行 器 接着 考察 组 合 M, RPM, 满足 约束 。 因 此 就 选择 M, 作为 最 后 的 匹配 组 合 ， 
并 产生 如 下 的 相似 度 和 矩阵 : 


name 7 (title : 0.5) 
releaselnfo ~ (releaseDate : 0.6) 
classification ~ (rating : 0.3) 


price ~ (basePrice : 0.5) <<< 


我 们 已 经 对 约束 执行 的 基本 工作 方法 进行 了 描述 。 而 实际 应 用 中 ， 实 施 这 些 约束 是 十 


第 5 章 模式 匹配 与 模式 映射 ” 99 








分 复杂 的 。 首 先 ， 需要 处 理 各 种 各 样 的 约束 ， 有 些 约束 可 能 在 一 定 程 度 上 得 到 满足 。 其 
次 ， 匹 配 组 合 的 空间 往往 非常 大 ， 因 此 必须 找到 一 个 高 效 的 搜索 方法 。 下 面 将 逐步 分 析 这 
些 挑 战 。 


5.6.1 域 完整 性 约束 


首先 对 硬 约 来 (hard constraint) 和 软 约 来 (soft constraint) 加 以 区 分 。 硬 约束 是 必须 
执行 的 。 任 何 违反 硬 约束 的 匹配 组 合 都 不 能 输出 。 软 约束 实际 上 更 具 启 发 性 ， 有 些 正确 的 
匹配 组 合 可 以 违反 软 约束 条 件 。 因 此 ， 执 行 器 会 尽量 使 得 被 违反 的 软 约 束 的 个 数 〈 或 权 
重 ) 最 小 ， 但 仍然 会 输出 违反 一 个 或 多 个 软 约束 的 匹配 组 合 。 我 们 可 以 为 每 一 个 约束 赋 一 
个 代价 ， 硬 约束 的 代价 是 无 穷 大 ， 软 约束 的 代价 可 以 是 任何 一 个 正 数 。 


、 例 5.9 图 5-4 中 有 两 个 模式 : BOOK- VENDOR 和 DISTRIBUTOR, 4 个 常见 的 约 
束 。 如 该 例子 所 示 ， 约 束 一 般 都 是 基于 模式 的 结构 〈 如 模式 元 素 的 近似 程度 、 属 性 是 否 是 
` 主键 ) 或 者 基于 在 特定 域 中 的 属性 的 特殊 性 质 。 


约束 代价 
in A~ltems. code， 那 么 4 是 一 个 主键 oo 


如 果 4=Items. desc， 那 么 映射 到 desc 的 任何 属性 很 可 能 有 20 Ls 
个 以 上 的 单词 ` 


WRA ~B,, A,~B,, By 5B, 邻近 ， 而 4, 与 4 不 邻近 ， 则 | | 
不 存在 这 样 的 属性 4 * , A * 既 与 41 邻近 (An pubCountry), 又 
与 B, 非常 匹配 (如 对 于 给 定 的 阐 值 s， | sim(A*, B,) - sim 
(Ay, B,)<e |) 
c4 如 果 表 UV 中 有 超过 一 半 的 属性 与 表 V 中 的 属性 匹配 ， 则 U= V 


图 5-4 具有 完整 性 约束 的 两 个 模式 
































— 


AR ci 是 一 个 硬 约 束 。ci 认为 映射 到 Itmes 中 属性 code 的 任何 其 他 属性 必须 是 主 
键 。c, 是 一 个 软 约 束 。c, 认为 映射 到 dese 的 任何 属性 很 可 能 有 20 个 以 上 的 单词 ， 因 为 描 
述 信息 一 般 都 是 比较 长 的 文本 信息 。 

c 是 一 个 软 约 束 。cs 抓 住 这 样 一 个 直观 的 现象 : 相关 的 属性 在 一 个 模式 中 出 现 的 位 置 
一 般 比 较 接 近 ， 因 此 包含 这 些 属 性 的 匹配 也 经 常 比较 接近 。 

例如 ， 假 设 4, =publisher~B, =brand, A, =location~B, =origin, HH, B, 5 B, 
邻近 ， 而 4, 与 4 不 邻近 。 该 约束 认为 不 存在 这 样 的 属性 4* , Ax BE A, 邻近 (如 pub- 
Country), X5 B, 非常 匹配 (如 对 于 给 定 的 闷 值 ae，| sim(A*,， B,) -sim(A,, B,) < 
2 | ) 。 因 为 如 果 有 这 样 的 4* 存在 ， 我 们 会 将 它 与 B, 匹配 ， 而 不 是 与 B, 匹配 ， 这 样 就 可 
以 确保 4 和 4, 的 匹配 彼此 邻近 。 

最 后 ，cs 也 是 一 个 软 约束 ， 它 包含 了 表 级 别 的 匹配 。 


BOOK-VENDOR 
Books(IsBN, publisher, pubCountry, title, review) 
Inventory (ISBN, quantity, location) 


DISTRIBUTOR 
Items(code, name, brand, origin, desc) 
InStore (code, availQuant) <<< 
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在 匹配 的 过 程 中 ,设计 者 仅 对 每 一 个 约束 指定 一 次 。 描 述 约束 的 确切 形式 并 不 重要 。 
唯一 的 要 求 是 ， 对 于 一 个 给 定 的 约束 。 和 一 个 匹配 组 合 MM， 在 模式 的 所 有 可 用 数据 已 知 的 
情况 下 ， 约 束 执行 器 必须 能 够 快速 地 判断 M 是 否 违 反 c。 

有 一 点 需要 特别 说 明 的 是 ， 只 是 因为 模式 的 已 有 数据 实例 满足 约束 ， 并 不 能 意味 着 数 
据 实 例 的 其 他 样本 也 满足 约束 。 例 如 ， 仅 仅 因为 属性 A 的 现 有 数据 值 是 不 同 的 ， 并 不 意味 
着 4 是 主键 。 然 而 ， 在 很 多 情况 下 ， 已 有 的 数据 实例 足够 约束 执行 器 快速 检测 哪些 组 合 违 
反 约束 。 


5. 6.2 搜索 匹配 组 合 空 间 


接 下 来 我 们 介绍 两 种 在 组 合 器 输出 的 相似 度 矩 阵 上 应 用 约束 的 算法 。 第 一 个 算法 是 
A' 搜索 算法 的 变形 ， 该 算法 能 够 确保 找到 一 个 最 优 方案 , 但 是 计算 代价 比较 大 。 第 二 种 
算法 仅仅 应 用 在 一 些 特定 的 约束 上 ， 在 这 些 约束 中 ， 一 个 模式 元 素 仅 会 被 其 邻近 的 元 素 影 
m CAN, cy 和 cs) ， 这 种 算法 的 运行 速度 比较 快 ， 但 是 只 能 得 到 局 部 最 优 和解。 我 们 仅仅 描 
述 了 算法 的 核心 思想 ， 参 考 文献 注释 中 给 出 了 详细 描述 的 相关 信息 。 


MHAR (A HR) 

A “算法 以 域 约束 c, ，…，c 和 组 合 器 产生 的 相似 度 矩 阵 作 为 输入 。 例 子 中 的 相似 度 
矩阵 如 表 5-1 所 示 。 算 法 搜索 可 能 的 匹配 组 合并 返回 一 个 代价 最 低 的 组 合 。 代 价 主 要 由 匹 
配 组 合 的 似 然 和 组 合 违 反 约束 的 程度 来 进行 衡量 。 

表 5-1 图 5-4 中 的 两 个 模式 的 组 合 相似 度 矩 阵 











Items code name brand origin desc InStore code availQuant 
Books 0.5 0.2 0.5 0.1 0 0.4 0.1 0 0 
ISBN 0.2 0.9 0 0 0 0 0 0. 1 0 
publisher 0.2 0. 1 0.6 0.75 0.4 0.2 0 0.1 0 
pubCountry 0.3 0.15 0.3 0.5 0.7 0.3 0. 05 0. 15 0 
title 0, 25 0.1 0.8 0.3 0.45 0:2 0. 05 0.1 0 
review 0. 15 0 0.6 0.1 0. 35 0. 65 0 0. 05 0 
Inventory 0. 35 0 0. 25 0.05 0.1 0.1 0.5 0 0 
ISBN 0. 25 0.9 0 0 0 0.15 0.15 0.9 0 
quantity 0 0.1 0 0 0 0 0 0.75 0.9 
location 0.1 0.6 0.6 0.7 0. 85 0.3 0 0.2 0 


在 讨论 A “算法 在 约束 执行 中 的 应 用 之 前 ,我们 首先 介绍 A 算法 的 一 些 主要 概念 。 
A -的 目标 是 从 某 一 个 初始 状态 开始 ， 在 一 个 状态 集合 中 搜索 一 个 目标 状态 。 搜 索 空 间 中 
的 每 一 条 路 径 都 有 一 个 代价 ，A “算法 要 求 从 初始 状态 找到 一 个 目标 状态 ， 并 且 路 径 的 代 
价 最 低 。A 执行 最 佳 优 先 (best-first) 搜索 : 从 初始 状态 开始 ， 将 其 扩展 成 一 个 状态 的 集 
合 ， 然 后 选择 具有 最 小 预 估 代 价 的 状态 ; 再 把 选 定 的 状态 进一步 扩展 成 状态 的 集合 ， 接 着 
再 选择 最 小 预 估 代 价 的 状态 ， 以 此 类 推 。 

状态 n 的 预 估 代 价 可 以 用 公式 f(n) =g(n) +h(n) 进行 计算 ， 其 中 g(z) 是 从 初始 状 
态 到 状态 nn 的 代价 ， h(n) 是 从 状态 nn 到 初始 状态 的 最 廉价 路 径 代 价 的 下 界 。 因 此 ， 预 估 
代价 A(n) 是 基于 状态 n 的 最 廉价 解 代价 的 下 界 。 当 到 达 目 标 状态 时 ，A* 算 法 终止 ， 并 返 
回 从 初始 状态 到 目标 状态 的 路 径 。 
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如 果 解 存在 ，A "算法 能 够 确保 找到 一 个 解 。 如 果 h(n) 是 到 达 目 标 状态 代价 的 下 界 ， 
那么 A* 还 能 确保 找到 最 廉价 解 。A "的 效率 可 以 通过 到 达 目 标 状态 需要 检查 的 状态 个 数 来 
衡量 ， 这 依赖 于 启发 式 h(n) 的 准确 性 。h(n) 越 接近 实际 的 最 低 代 价 ，A 需要 检查 的 状 
态 数 就 越 少 。 最 理想 的 情况 是 h(n) 就 是 最 低 代价 ， 这 样 A* 算法 就 可 以 直接 以 最 低 代价 
找到 目标 状态 。 

接 下 来 我 们 描述 使 用 A 算法 来 匹配 模式 5S, 和 模式 $ ， 其 属性 分 别 为 : A, e, A, 和 
Bi ，…，B,。 需 要 说 明 的 是 下 面 的 方法 并 不 是 使 用 A "算法 的 唯一 方法 。 


状态 

一 个 状态 可 以 定义 为 一 个 长 度 为 的 元 组 ， 其 中 第 i 个 元 素 或 者 指定 4; 的 一 个 匹配 或 者 
是 一 个 通配符 * 表示 A, 的 匹配 还 不 确定 。 因 此 ， 一 个 状态 就 可 以 代表 满足 一 定 规范 的 匹配 组 
合 的 集合 。 例 如 ,假设 n=5,m =3， 那么 状态 (B,, *, Bi, B3, B,) 就 代表 了 3 个 匹配 
组 合 , (B,, Bi, Bi, By, B,)、(B,, B,, By, By, B,) 和 (B,，B;，B!，B;，B,)。 如 果 
一 个 状态 含有 通配符 ， 则 我 们 称 为 抽象 状态 ; 否则 称 为 具体 状态 。 一 个 具体 状态 就 是 一 个 匹 
配 组 合 。 


初始 状态 
初始 状态 定义 为 ( * ，* ，* ，* ，* ) ， 代 表 所 有 可 能 的 匹配 组 合 。 


目标 状态 


目标 状态 是 指 那些 不 包含 任何 通配符 的 状态 ， 因 此 可 以 完整 地 确定 一 个 候选 匹配 
组 合 。 


接 下 来 我 们 将 描述 A "算法 如 何 计算 目标 状态 和 抽象 状态 的 代价 。 


状态 扩展 


为 了 扩展 一 个 抽象 状态 ， 我 们 首先 选择 一 个 通配符 ， 位 置 为 ?， 然 后 创建 一 个 状态 集 
合 ， 该 状态 集合 由 第 ;个 位 置 的 属性 的 所 有 可 能 匹配 组 成 。 这 里 需要 确定 的 是 到 底 选 择 哪 
一 个 通配符 。 很 明显 ， 应 该 首先 选择 只 有 一 个 匹配 的 位 置 。 接 下 来 就 偏向 于 选择 其 匹配 具 
有 较 高 得 分 的 通配符 。 


目标 状态 的 代价 


目标 状态 的 代价 包括 组 合 似 然 的 估计 和 组 合 违反 域 约束 的 程度 。 我 们 用 如 下 公式 来 评 
{HAA M: 
cost(M) =- LH(M) + cost(M,c,) + cost(M,c,) + … + cost(M,c,) (5-1) 
式 (5-1) F, LH(M) 表示 组 合 M 的 似 然 ，cost(M，ci) RMAAMBRAR c HE 
度 。 实 际 应 用 中 ， 为 了 对 各 部 分 进行 权衡 ， 经 常 为 每 部 分 赋 一 个 权重 ， 但 这 里 不 再 
BR 
LH(M) 定义 为 log conf(M), HEP conf(M) 是 匹配 组 合 M 的 置信 度 。 可 以 用 组 合 M 
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中 所 有 匹配 的 置信 和 度 乘积 来 计算 。 特 别 是 ， 如 果 M = (B, 0, Ba), AP Bi 是 模式 S 
的 元 素 ， 那 么 

conf(M) = combined(1,/,) x … x combined(n,l, ) 
conf(M) 假设 下 中 的 所 有 匹配 的 置信 和 度 都 是 相互 独立 的 。 该 假设 显然 是 不 成 立 的 ， 因 为 
在 很 多 情况 下 ， 一 个 属性 的 合适 的 匹配 往往 依赖 于 其 邻居 的 匹配 。 然 而 ， 基 于 该 假设 可 以 
降低 搜索 的 代价 。 需 要 说 明 的 是 ，LH(M) 的 定义 表明 ， 在 所 有 其 他 因素 相同 的 情况 下 ， 
我 们 比较 倾向 于 具有 最 高 置信 和 度 的 组 合 。 


例 5. 10 考虑 一 个 拥有 如 下 匹配 组 合 的 目标 状态 (如 表 5-1 中 的 粗 体 所 示 ) : 


Books ~ Items Inventory ~ InStore 
Books.ISBN ~ Items.code Inventory.ISBN ~ InStore.code 
Books.title ~ ltems.name Inventory.quantity ~ InStore.availQuant 


Books. publisher + Items.brand 
Books.pubCountry ~ Items.origin 
Books.review ~ Items.desc 


该 状态 的 代价 等 于 组 合 违反 完整 性 约束 的 程度 减 去 组 合 的 似 然 。 组 合 的 似 然 等 于 
表 5-1 中 粗 体 值 乘积 的 对 数 。 该 匹配 组 合 满足 图 5-4 中 的 所 有 完整 性 约束 ， 因 此 不 会 产生 
额外 的 代价 。 

相反 ， 如 果 Books. review 二 ltems. desc 被 Books. title ~ Items. desc 替换 ，Books. 
pubCountry 二 ltems. origin 被 Inventory. location = Items. origin 替换 。 那 么 该 组 合 就 会 


违反 约束 c, 和 cs ， 从 而 产生 3.5 的 额外 代价 。 <<< 


抽象 状态 的 代价 


抽象 状态 s 的 代价 等 于 初始 状态 到 s 的 路 径 代价 ， 记 为 g(s)， 再 加 上 从 s 到 目标 状态 
的 路 径 代 价 的 估计 ， 记 为 h(s)。h(s) 必须 是 从 s 到 目标 状态 的 最 廉价 路 径 代价 的 下 界 。 

除了 我 们 忽略 了 通配符 之 外 ， 从 初始 状态 到 s 的 路 径 代 价 与 到 目标 状态 的 路 径 代 价 的 
计算 方法 是 一 样 的 。 


例 5. 11 考虑 一 个 抽象 状态 ， 它 具有 如 下 部 分 匹配 : 


Books Items Books.review ~ Items.desc 

Books.ISBN Items.code Books.publisher ~ Items.brand 

Books.pubCountry ~ Items.origin Books.title ~ Items.name 

给 定 表 5-1 中 的 相似 度 值 ， 从 初始 状态 到 抽象 状态 的 代价 是 : -log(0.5 x0.9 x 0.7 x 
0.65 x0. 75 x0.8). <<< 


从 到 目标 状态 路 径 的 代价 hs) 从 两 个 方面 估计 h(s) 和 h(s)。hi(s) 可 以 用 扩展 s 
中 所 有 通配符 代价 的 下 界 来 计算 。 例 如 ,假设 ;= (BB, * * B;)， 那 么 估计 代价 h(s) 为 : 
hi(s) =- (logl max combined(3,i) | + log[ max combined(4,i) ] ) <<< 


例 5. 12 继续 以 例 5.11 为 例 ， 通配符 是 Inventor 及 其 属性 的 赋值 。 估 计 代 价 是 每 一 
行 中 最 大 值 的 乘积 ， 如 : -log(0.5 x0.9 x0.9 x0. 85)。 <<< 


h(s) 代表 从 s 可 达 的 目标 状态 违反 约束 的 程度 的 估计 值 。 可 以 定义 为 > cost(s, 
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c), HP cost (s, c), EAR c 的 估计 。 为 了 估计 抽象 状态 违反 约束 的 程度 ， 算 法 假定 
了 一 个 最 好 情况 : 如 果 不 能 证 明 * 可 达 的 所 有 目标 状态 都 违反 约束 c;,， 那 么 就 假定 约束 c; 
没有 被 违反 。 在 例 5. 11 中 ， 很 容易 发 现 至 少 有 一 个 抽象 状态 可 达 的 目标 状态 没有 违反 约 
Ro RAE, MAREK h, 值 为 0。 

确定 可 能 的 目标 状态 是 否 违 反 约束 o 的 具体 方法 依赖 于 约束 c 的 类 型 。 例 如 ， 考 虑 
s=(B,, B,, *, *, Bs), WAR c= “最 多 有 一 个 属性 与 B, WE”. WR, 存在 s 代表 
的 且 满 足 约束 ec 的 目标 状态 ， 如 目标 状态 (B, Bı, B, Bi, By), ART WG s 满 
fic. Fs’ =(B ,已 ，* ，* ，B,)， 因 为 代表 的 任何 目标 状态 都 违反 约束 <， 因 此 我 
们 设 cost(s', c) =œ, 

很 容易 看 出 ,代价 f(s) =g(s) +h(s) Æ s 代表 的 具体 状态 集合 中 任何 目标 状态 代价 
的 下 界 ， 因 此 A* 可 以 找到 最 廉价 的 目标 状态 。 


RIR (Fae TE) 


第 二 种 算法 基于 局 部 地 约束 传播 ， 从 模式 的 元 素 传播 给 它们 邻居 ， 直 到 到 达 某 个 固定 
点 。 和 前 面 一 样 ， 我 们 可 以 采用 多 种 方法 来 描述 算法 。 


例 5.13 图 5-4 F, AR c 和 cs 基于 元 素 邻 居 的 属性 来 进行 匹配 计算 。 为 了 将 这 些 
约束 用 到 我 们 正在 描述 的 算法 中 ， 需 要 从 节点 对 的 角度 对 其 进行 重新 描述 ， 一 个 节点 来 自 
FS, 一 个 节点 来 自 于 5;。 

约束 c 可 以 描述 为 : 如 果 sim(A,, B,) <0.9, JfH A, 有 一 个 邻居 4,， 使 得 sim(A,, 
B,)>0.75, AB, Æ B, 的 邻居 ， 那 么 就 可 以 将 sim(A , Bi) 增加 a。 

约束 c 可 以 描述 为 : WR eS, R eS, 是 两 张 表 ， 并 假设 它们 邻居 的 个 数 是 2 的 因 
子 〈 表 节点 的 邻居 包括 代表 表 属 性 的 所 有 节点 ) 。 如 果 sim(R,, R,)<0.9, FFA, R 的 邻 
居中 至 少 有 一 半 在 集合 |A; e attributes(R,) | JB, e attributes(R,), s.t. sim(A;, B,) > 
0.75| 中 ,那么 就 可 以 将 sim(A,, B,) 增加 as <<< 


初始 化 

首先 将 模式 S FS, 表示 成 图 的 形式 。 如 果 是 关系 模式 ， 图 的 表现 形式 是 一 棵 树 CW 
图 5-5)。 树 的 根 节点 是 模式 节点 ， 根 节点 的 孩子 节点 是 关系 名 ， 叶子 节点 代表 各 自 的 属 
性 。 其 他 数据 模型 (如 XML、 面 向 对 象 ) 也 有 各 自 的 图 表示 方法 。 直 观 上 ， 图 中 的 边 代 
表 模 式 中 的 相 邻 关系 。 

算法 需要 计算 出 一 个 相似 度 矩 阵 sim，sim WARE NHARE, combined (i, j) 表示 
A, e S, 5 B, e S, 匹配 的 估计 值 。 


iz 
算法 反复 地 从 图 S 中 选择 节点 ， 然 后 通过 计算 邻居 节点 的 相似 度 来 更 新 相似 度 矩 阵 
中 的 值 。 常 见 的 树 遍 历 方法 是 自 底 向 上 法 ， 从 叶子 节点 开始 ， 一 直到 根 节点 。 


当 我 们 选择 节点 s, eS 时 ， 就 需要 使 用 包含 节点 s, eS, 的 约束 。 既 然 我 们 不 想 对 每 一 个 
节点 对 都 进行 比较 ， 那 么 该 算法 就 只 对 那些 通过 过 滤器 的 元 素 对 进行 约束 验证 。 例 如 ， 节 点 
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对 必须 有 一 半 以 内 的 相同 数量 的 邻居 (需要 说 明 的 是 该 过 滤器 已 经 成 为 约束 o 的 一 部 分 ) 。 
算法 应 用 该 约束 ， 如 果 有 必要 就 修改 相似 度 ， 然 后 继续 处 理 下 一 个 节点 。 


S; 
aia ee 
Books Inventory 
ISBN publisher pubCountry title review ISBN Quantity Location 
S2 
ge 
Items InStore 
code name brand origin desc code avaiQuant 


5-5 5-4 中 模式 的 树 表示 


当 和 迭代 次 数 达到 一 定数 值 或 者 对 sim 的 改变 小 于 某 个 给 定 的 阔 值 时 ， 算 法 结束 。 


例 5. 14 在 我 们 的 例子 中 ，a 设 为 20% 。 当 选择 Books 中 的 节点 pubCountry 时 ， 
我 们 就 会 考虑 节点 对 (pubCountry，origin ) ， 因 为 在 pubCountry 行 ， 该 对 的 值 最 高 。 
因为 pubCountry 是 publisher 的 邻居 ，origin 是 brand 的 邻居 ，publisher 和 brand 之 
间 的 相似 度 是 0.75， 所 以 约束 cs 表明 我 们 需要 把 pubCountry 和 origin 之 间 的 相似 度 增 
加 20% ， 变 成 0.6。 

经 过 若干 次 迭代 之 后 ， 算 法 就 会 终止 ， 这 是 因为 约束 c 和 cs 只 能 使 相似 度 的 值 增加 ， 
而 一 旦 相似 度 超 过 0.9 以 后 ， 约束 C3 和 C4 就 不 再 使 用 了 。 <<< 


5.7 匹配 选择 器 


模式 匹配 器 前 面 功 能 模块 的 输出 结果 是 模式 S 和 了 的 相似 度 和 矩阵。 该 矩阵 将 多 个 匹配 
器 的 预测 结果 与 域 约 束 信息 进行 融合 。 匹 配 系统 的 最 后 一 个 组 成 部 分 是 匹配 选择 器 ， 它 从 
相似 度 矩 阵 中 生成 匹配 结果 。 

最 简单 的 选择 策略 是 阅 值 法 : 相似 度 分 数 大 于 或 等 于 给 定 阔 值 的 所 有 模式 元 素 对 都 可 
以 作为 匹配 返回 。 例如， 在 例 5.8 中 ,约束 执行 器 产生 的 相似 度 矩 阵 为 : 


name ~ (title : 0.5) 
releaselnfo ~ (releaseDate : 0.6) 
classification ~ (rating : 0.3) 
price ~ (basePrice : 0.5) 
SAE EY 0.5, DE ALE PERE AE Aw Ay DC aR: name = title, releaselnfo ~ release- 
Date, price ~basePrice, 
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更 复杂 一 些 的 选择 策略 是 产生 前 几 个 匹配 组 合 。 这 样 ， 用 户 就 可 以 做 一 些 特定 的 选 
择 ， 其 他 的 匹配 则 可 以 根据 需要 进行 相应 的 调整 。 首 先 产生 少数 几 个 匹配 组 合 ， 然 后 根据 
用 户 的 选择 需求 对 其 他 匹配 做 出 相应 调整 。 例 如 ， 假 设 匹配 选择 器 生成 了 如 下 的 首选 匹配 
组 会 
dig ches ~ shipPhone, addr ~ shipAddr 
次 要 的 匹配 组 合 为 : 

phone ~ billPhone, addr ~ billAddr 

因此 ， 设 计 者 一 旦 选择 了 phone~billPhone 作为 正确 的 匹配 ， 则 模式 匹配 系统 也 可 
能 推荐 addr= billAddr， 尽 管 该 匹配 的 相似 度 分 值 低 于 addr=shipAddr。 

实际 上 ， 有 多 种 算法 可 以 用 来 对 匹配 组 合 进行 选择 。 常 用 的 算法 可 以 把 匹配 选择 问题 
形式 化 为 稳定 婚姻 问题 。 具 体 来 讲 ， 假 设 模式 S 中 的 元 素 对 应 于 男人 ， 而 模式 了 中 的 元 素 
对 应 于 女人 。 假 设 sim(i, j) 表示 4 和 B, 都 希望 把 对 方 作为 配偶 的 程度 (需要 说 明 的 是 ， 
在 模式 匹配 中 ，4 和 B 之 间 相互 匹配 的 期 望 值 是 一 样 的 ， 尽 管 有 时 候 我 们 也 可 以 把 这 种 匹 
配 看 成 是 非 对 称 的 ) 。 我 们 的 目标 是 在 男人 和 女人 之 间 找 到 一 个 稳定 的 匹配 。 假 设 某 个 匹 
配 是 A; ~B, Fil A, ~B,, 如 果 A, 与 B 希望 彼此 匹配 ， 即 sim(i, A 1 SG 
l) >sim(i, j) Hsim(i, 1) > sim(k, j), 那么 该 匹配 就 是 不 稳 
定 的 。 

我 们 可 以 基于 如 下 操作 生成 一 个 稳定 的 匹配 组 合 。 设 集合 0.8 
match = || ， 不 断 重复 如 下 过 程 。 设 sim(i, j) 是 相似 度 和 矩阵 中 
的 最 大 值 ， 且 4; 和 B 不 属于 集合 match， 则 把 4,~B, 添加 到 该 “06 P 


集合 中 。 图 5-6 4 与 C 和 B 与 D 
与 稳定 婚姻 问题 相 比 ， 匹 配 组 合 则 可 以 看 成 是 使 匹配 预测 值 是 稳定 的 匹配 ， 

总 和 最 大 化 的 过 程 。 在 图 5-6 中 , 4 与 C 和 8B 与 D BREN iA 5 DAB 

配 。 然 而 ， 如 果 匹 配 4 与 D 和 8B 与 C， 则 可 以 使 匹配 的 置信 度 最 faa 

大 化 。 

5.8 ”匹配 重用 


模式 匹配 通常 是 不 断 重复 的 过 程 。 例 如 ， 在 数据 集成 中 ， 我 们 可 以 创建 一 些 从 属于 同 
一 个 域 的 数据 源 到 单个 中 介 模 式 的 匹配 。 而 在 企业 应 用 环境 下 ， 我 们 经 常 需要 对 语义 匹配 
进行 更 新 ， 因 为 模式 可 能 已 经 发 生 了 变化 。 

一 般 情 况 下 ， 在 某 些 特 定 的 领域 内 ， 相 同 的 概念 可 能 会 重 现 。 因 为 设计 者 在 某 个 特定 
的 领域 中 工作 ， 所 以 他 就 会 首先 判断 一 些 常见 的 领域 概念 在 模式 中 如 何 表 达 。 因 此 ， 设 计 
者 就 可 以 比较 快速 地 创建 模式 匹配 。 例 如 ， 在 房地产 领域 内 ,设计 者 可 以 很 快 获得 一 些 典 
型 的 概念 (如 房子 、 地 段 、 代 理 ) 、 概 念 的 典型 属性 ， 以 及 这 些 属性 的 特征 (例如 ， 以 千 
为 单位 的 数值 通常 代表 房子 的 价格 、 有 长 文本 描述 的 域 往往 是 房屋 的 具体 描述 ) 。 

因此 ,一 个 比较 有 趣 的 问题 就 是 模式 匹配 系统 能 够 随 着 时 间 的 推移 而 不 断 得 到 改进 。 
模式 匹配 系统 能 否 从 以 前 的 经 验 中 进行 学 习 ? 本 节 将 具体 介绍 如 何 把 机 器 学 习 技术 应 用 于 
模式 匹配 ， 如 何不 断 提 高 匹配 的 准确 性 。 我 们 会 在 数据 集成 应 用 中 介绍 这 些 技术 ， 其 目标 
是 将 多 个 数据 源 映射 到 单个 的 中 介 模 式 。 
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5.8.1 学 习 匹 配 


假设 5,，5,，…，5, 为 n 个 数据 源 ， 我 们 的 目标 是 如 何 把 这 个 数据 源 映射 到 中 介 模 
式 G。 前 面 介绍 过 ，G 主要 是 用 来 对 集成 系统 中 的 查询 进行 形式 化 。 为 了 训练 匹配 系统 ， 
我 们 会 在 少数 的 数据 源 上 (如 5S,，5,，…，5;,，m 和 远 小 于 n) 手工 提供 一 些 语 义 匹配 。 系 
统 通 过 这 些 训 练 样本 进行 归纳 ， 然 后 预测 5;, ,1 ，…，5, 的 匹配 结果 。 
我 们 首先 介绍 通过 中 介 模 式 的 元 素 学 习 分 类 器 。 如 5. 4 节 所 述 ， 概 念 C 的 分 类 器 实际 
上 就 是 一 个 算法 ， 该 算法 能 够 将 属于 C 的 实例 和 不 属于 C 的 实例 区 分 开 来 。 这 种 情况 下 ， 
中 介 模 式 中 一 个 元 素 e 的 分 类 器 就 会 对 源 模 式 中 的 元 素 进 行 检查 ， 并 判断 它 是 否 与 e 匹配 。 
为 了 构建 分 类 器 ， 需 要 采用 一 些 机 器 学 习 算 法 。 和 匹配 器 一 样 ， 任 何 一 种 机 器 学 习 算 
法 一 般 情 况 下 只 是 重点 考虑 模式 的 一 个 方面 ， 并 且 有 各 自 的 优 缺 点 。 因 此 ， 可 以 采用 多 策 
略 学 习 技术 将 多 种 学 习 方法 结合 在 一 起 。 多 策略 学 习 技 术 的 过 程 如 下 : 
。 采用 一 个 学 习 器 集合 : 1 ，…，l， 对 于 中 介 模 式 的 每 一 个 元 素 e， 每 个 学 习 器 都 
在 e 的 训练 样本 的 基础 上 为 其 创建 一 个 分 类 器 。 训 练 样本 是 根据 G 和 训练 数据 源 
之 间 的 语义 匹配 得 到 的 。 
。 使 用 一 个 元 学 习 器 对 不 同学 习 融 的 权重 进行 学 习 。 具 体 来 讲 ， 对 于 中 介 模 式 的 每 
一 个 元 素 。 和 每 一 个 学 习 器 !， 元 学 习 器 都 会 计算 出 一 个 权重 w, 0 


例 5. 15 假设 中 介 模 式 G 有 3 个 元 素 en e Ales. BRA 2 个 基于 实例 的 学 习 器 : 
朴素 贝 叶 斯 和 决策 树 〈 我 们 将 简单 进行 介绍 ) 。 朴 素 贝 叶 斯 学 习 器 分 别 为 ee、e Ailes 创建 
3 个 分 类 器 : Cues Con Ceyo 分 类 器 Cu, 的 目标 是 判断 一 个 给 定 的 数据 实例 是 否 属 
于 元 素 e1。 分 类 器 Cu 和 Cs 的 目标 与 C。 ,wy 一 样 。 

为 了 训练 分 类 器 C, ws， 需要 构建 正 例 和 反例 样本 的 集合 。 实 际 应 用 中 ， 可 以 用 ei 的 
所 有 可 用 数据 实例 作为 正 例 样本 ， 中 介 模 式 中 其 他 元 素 的 可 用 实例 作为 反例 样本 。 然 而 ， 
中 介 模 式 一 般 都 是 虚拟 的 ， 并 没有 数据 实例 。 

这 种 情况 下， 就 需要 一 些 训练 数据 源 : 5S, ，5,，…，5,。 假 设 将 这 些 数 据 源 与 中 介 模 
式 进行 匹配 时 ， 数 据 源 中 只 有 a 和 4 两 个 元 素 与 中 介 模 式 的 元 素 e 匹配 。 那 么 就 可 以 把 a 
Al b 的 可 用 数据 实例 作为 e 的 数据 实例 ， 并 作为 正 例 样本 。 同 样 的 方法 ， 也 可 以 用 与 @ 
不 匹配 的 元 素 实 例 (训练 数据 源 的 元 素 ) 作为 范例 样本 。 分 类 器 Ca yw Fl Cns 采 用 相同 的 
方法 进行 训练 。 

决策 树 学 习 器 也 创建 3 个 分 类 器 :C6 ,pr、C。,pr 和 C。.pr， 它 们 也 可 以 采用 类 似 的 方法 
进行 训练 。 

最 后 ， 元 学 习 髓 需要 为 每 一 对 中 介 模 式 元 素 和 学 习 器 计算 一 个 权重 ， 一 共有 6 个 权 


重 : We NB、 Wene WesNB、 Wej, DTS Wwe, prl We, DTO <<< 


给 定 一 个 训练 得 到 的 分 类 器 ， 多 策略 学 习 方 法 的 匹配 过 程 如 下 所 示 。 假 设 模式 S 的 元 
BA: ei, ey er: 
e 在 el1，…，e, 上 应 用 学 习 器 ,用 p,,(e') 表示 学 习 器 1 对 e' 是 否 匹 配 。 的 预测 。 


k 
© 对 学 习 器 进行 合并 : p (e) = D wen * Pegle) o 
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学 习 器 充当 匹配 器 ， 元 学 习 器 充当 组 合 器 。 因 此 ， 元 学 习 器 输出 的 是 一 个 合并 的 相似 
度 和 矩阵 ， 该 矩阵 可 以 作为 约束 执行 器 和 匹配 选择 器 的 输入 。 


例 5. 16 继续 以 5.15 为 例 ， 假 设 $ 是 一 个 新 的 数据 源 ， 有 两 个 元 素 ei Mer RN 
叶 斯 学 习 器 的 工作 过 程 如 下 所 示 : 

。 分 类 器 Cane Pe, we (et ) All Pa (e2) 进行 预测 ; 

。 分 类 器 Ce 对 Penws(el) All pe, wa (e2) 进行 预测 ; 

© 分 类 器 C。 ws 对 pnsa(e1) 和 pnws(e2) 进行 预测 。 
ER 6 个 预测 构成 了 一 个 相似 度 矩 阵 ， 该 矩阵 可 以 看 做 是 由 朴素 贝 叶 斯 学 习 器 产生 的 相似 
度 和 矩阵。 决策 树 学 习 器 也 可 以 产生 一 个 相似 度 矩 阵 。 

元 学 习 器 将 上 述 两 个 相似 度 矩 阵 进行 合并 。 具 体 来 讲 ， 可 以 将 相似 度 分 数 的 总 和 作为 
合并 的 相似 度 分 数 ， 计 算 公式 为 : 

Pa (e1) = We. we * Pe, we(e1) + We pr * Pe, ores) 


其 他 的 合并 相似 度 分 数 可 以 用 相同 的 方式 计算 得 到 。 <<< 
后 面 两 节 将 介绍 两 种 常见 的 学 习 器 ， 并 介绍 如 何 训练 元 学 习 器 。 
5.8.2 学 习 器 


很 多 分 类 技术 都 可 以 作为 模式 匹配 的 学 习 器 。 接 下 来 我 们 将 介绍 两 种 常见 的 学 习 器 : 
基于 规则 的 学 习 器 和 朴素 贝 叶 斯 学 习 器 。 


FEF MIWA AT tt 

基于 规则 的 学 习 融 可 以 检查 训练 样本 集合 ， 并 得 到 一 些 规则 集合 ， 这 些 规则 可 以 用 来 
对 实例 进行 测试 。 这 些 规 则 可 以 用 简单 的 逻辑 公式 或 者 决策 树 来 表示 。 如 果 在 某 些 领域 中 
存在 一 个 规则 集合 ， 并 且 基 于 训练 样本 的 特征 ， 这 些 规则 可 以 准确 地 描述 类 的 实例 ， 如 能 
够 识别 满足 特定 格式 的 元 素 ， 那 么 基于 规则 的 学 习 器 在 这 样 的 领域 中 就 非常 有 效 。 当 学 习 
得 到 的 规则 应 用 到 一 个 实例 上 时 ， 如 果实 例 满足 规则 要 求 ， 则 返回 1， 否 则 返回 0。 

以 规则 学 习 器 识别 电话 号 码 为 例 (为 简单 起 见 ， 我 们 仅 识别 美国 电话 号 码 ) 。 作 为 学 
习 器 输入 的 字符 串 实例 样本 是 “(608) 435-2322”、“849-7394” 和 “5549902”。 对 于 每 一 
个 字符 串 ， 首 先 判断 它 是 正 例 还 是 反例 ， 然 后 
为 我 们 认为 重要 的 特征 提取 值 。 在 我 们 的 例子 
中 ， 这 些 特征 为 “字符 串 是 否 有 10 个 数字 ?”， 
“字符 串 是 否 有 7 个 数字 ?”, “在 第 1 个 位 置 是 
SA ‘CP, “在 第 5 个 位 置 是 否 有 “) 7, 
“在 第 4 个 位 置 是 否 有 “ - "?”。 

学 习 规 则 的 一 个 常用 方法 是 构建 决策 树 。 
图 5-7 显示 了 一 个 识别 电话 号 码 的 决策 树 例 子 。 
决策 树 的 创建 过 程 为 : 首先 从 训练 数据 的 特征 
中 选择 一 个 对 正 例 和 反例 具有 最 大 区 分 度 的 特 
征 。 该 特征 就 作为 树 的 根 节点 ， 然 后 根据 是 否 图 5-7 识别 电话 号 码 的 决策 树 
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包含 该 特征 ， 将 实例 划分 为 两 个 集合 。 然 后 递归 执行 ， 并 分 别 为 两 个 实例 的 子 集 构建 决策 
树 。 在 图 5-7 中 ， 我 们 首先 将 含有 10 个 数字 的 实例 与 其 他 实例 区 分 开 来 。 对 于 含有 10 个 
数字 的 实例 ， 下 一 个 重要 特征 是 “( ”的 位 置 。 

如 上 所 述 ， 决 策 树 所 代表 的 规则 可 以 是 “如 果实 例 ; 有 10 个 数字 ,在 位 置 1 有 “( ， 
在 位 置 5 有 “)'， 那么 i 就 是 一 个 电话 号 码 ”， “MRI AT 个 数字 ,在 第 4 个 位 置 没有 
-"， 那 么 i 就 不 是 一 个 电话 号 码 ”。 


BENG A D aE 

假设 项 (tokens) 在 训练 数据 中 的 出 现 情况 是 已 知 的 ， 那 么 朴素 贝 叶 斯 分 类 器 就 可 以 
检查 给 定 实例 的 每 一 个 项 (token)， 然 后 把 该 实例 赋 给 最 可 能 的 类 。 具 体 来 讲 ， 给 定 一 个 
实例 ， 学 习 器 首先 会 把 它 转换 成 一 个 项 的 集合 (bag of tokens) 。 这 些 项 是 通过 对 实例 中 的 
单词 和 符号 进行 语法 解析 和 词 干 分 析 得 到 的 。 例 如 “RE/MAX Greater Atlanta Affiliates of 
Roswell” 经 过 人 处理 之 后 ， 就 变 成 “re / max greater atlanta affili of roswell”。 

假设 中 介 模 式 的 元 素 是 c,，…，c,， 学 习 咒 的 测试 实例 是 d= |w,，…，wi| ， 其 中 w, 
是 实例 的 项 。 朴 素 贝 叶 斯 学 习 器 的 目标 是 把 4 赋 给 元 素 cv ， 使 得 在 给 定 a 的 情况 下 ， 后 验 
概率 最 大 。 形 式 上 ， 概 率 可 以 定义 为 cs = arg max P(c; | d) 。 为 了 计算 该 概率 ， 学 习 器 可 
以 使 用 贝 叶 斯 规则 ， 即 P(c; | dg) =P(d | c;)P(e;)/P(d)。 基 于 该 规则 ， 可 以 得 到 : 

cd = arg max,,[ P(d | c;)P(c;)/P(d)] 
= arg max,,[ P(d | ¢;)P(¢;) ] 

因此 ， 为 了 进行 预测 ， 朴 素 贝 叶 斯 学 习 器 就 需要 从 训练 数据 中 估计 P(d | c) 和 P(e;) 
的 值 。 概 率 P(c;) 可 以 用 属于 元 素 c 的 训练 实例 的 比例 来 近似 代替 。 计 算 P(d | c) 时 ， 
需要 假设 在 给 定 c; 的 情况 下 ，d 中 的 项 w, 是 相互 独立 的 〈 因 为 这 些 假设 ， 它 才 称 为 朴素 
贝 叶 斯 ) 。 基 于 这 些 假 设 ， 可 以 得 到 ; 

P(d | c) = P(w; | c;) P(w, | 0) P(w, | ci 

我 们 用 于 ;来 估计 Pw |,) ， 其 中 ne) 表示 属于 元 素 o 的 实例 中 所 有 项 的 总 数 ， 
Gece eos eae 的 实例 中 出 现 的 次 数 。 

尽管 独立 性 假设 常常 是 不 成 立 的 ， 但 是 朴素 贝 叶 斯 学 习 器 在 很 多 领域 中 的 效果 都 非常 
好 。 特 别 是 ， 当 存在 一 些 对 正确 类 别 (标签 ) 有 很 强 指示 作用 的 项 时 ， 朴 素 贝 叶 斯 学 习 器 
的 效果 是 最 好 的 。 例 如 ， 它 可 以 在 房产 信息 列表 中 有 效 地 识别 出 房屋 描述 信息 ， 因 为 描述 
信息 经 常 包含 “漂亮 ”和 “奇妙 ”等 单词 ， 而 这 些 单词 在 其 他 元 素 中 很 少 出 现 。 如 果 只 
含有 弱 指 示 项 ， 但 是 数量 很 多 ， 朴 素 贝 叶 斯 学 习 器 的 效果 也 很 好 。 相 比 之 下 ， 对 于 一 些 较 
短 的 或 者 数字 域 ， 如 颜色 、 邮 政 编码 、 浴 室 数量 等 ， 效 果 则 比较 差 。 


5.8.3 训练 元 学 习 器 


元 学 习 器 可 以 确定 每 一 个 学 习 器 的 权重 。 中 介 模 式 的 每 个 元 素 的 权重 可 能 是 不 同 的 。 
为 了 计算 权重 ， 元 学 习 器 要 求 其 他 学 习 器 对 训练 样本 进行 预测 。 由 于 元 学 习 器 知道 正确 的 
匹配 结果 ， 所 以 它 可 以 判断 每 个 学 习 器 对 中 介 模 式 的 每 个 元 素 的 效果 。 基 于 这 种 判断 ， 元 
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学 习 器 就 会 为 每 个 中 介 模 式 元 素 e 和 学 习 器 ! 赋 一 个 权重 w.,， 该 权重 反映 了 元 学 习 器 对 学 
Dat 1 针对 元 素 e 所 做 预测 的 信任 程度 。 

为 了 给 中 介 模 式 的 每 一 个 元 素 确定 一 个 权重 ,元 学 习 器 需要 创建 一 个 训练 样本 集合 。 
训练 样本 的 格式 为 《d，p;，…， Pes P*), JEP: 

o d 是 训练 数据 源 5; 的 一 个 数据 实例 ，1 <i<m， 

© 万 代表 学 习 器 六 对 (d, e) 做 的 预测 ， 

© pr 是 数据 实例 a 的 正确 预测 。 

然后 ， 元 学 习 器 就 可 以 在 上 述 训练 样本 上 使 用 学 习 方 法 〈 如 线性 回归 ) 来 为 元 素 e 学 
习 相 应 的 权重 。 


例 5. 17 继续 以 例 5.15 和 例 5. 16 为 例 ， 我 们 的 目标 是 学 习 6 个 权重 : wanes Wane 
Wes,NB、 Wej, DTS W,,,pr All We, DTO 

我 们 首先 学 习 e 的 两 个 权重 w. ,we 和 w ,mr。 为 了 完成 这 个 任务 ， 需 要 创建 一 个 训练 样 
本 集合 。 样 本 的 形式 为 (d，pws，por，P* ) ， 其 中 : (a) d 是 训练 数据 源 中 的 一 个 数据 实 
Bl; (D) pwe 和 por 分 别 是 朴素 贝 叶 斯 学 习 器 和 决策 树 学 习 器 认为 d 与 e 匹配 (and He, 
的 实例 ) 的 置信 和 度 ; (c) WR ad Ge, 匹配 ， 则 px* 为 1， 和 否则 为 0。 

接 下 来 我 们 使 用 线性 回归 方法 来 计算 权重 wns 和 wpr， 使 平方 误差 py (pe 一 


[Pue * Wo ,NB + Por * W., or] )? 最 小 。 


剩 下 的 4 个 权重 可 以 采用 相同 的 方法 计算 得 到 。 <<< 
5.9 多 对 多 匹配 


BIA RAUL, 我 们 主要 关注 一 对 一 的 匹配 。 然 而 ， 在 实际 应 用 中 ， 很 多 匹配 都 包含 一 
个 或 两 个 模式 中 的 多 个 元 素 。 例如， 图 5-8 中 的 两 个 模式 SOURCE 和 TARGET. 
K ltmes 中 的 属性 price 与 表 Books 中 的 basePrice * (1 +taxRate) 对 应 ; # Items 中 
的 属性 author 与 表 Books 中 的 concat(authorFirstName，authorLastName) 对 应 。 
因此 ， 就 需要 考虑 两 个 模式 的 复合 元 素 的 相似 度 。 复 合 元 素 是 通过 将 一 个 函数 应 用 于 多 个 
元 素 上 而 得 到 。 


SOURCE 
Books(title, basePrice, taxRate, quantity, authorFirstName, authorLastName) 


TARGET 
Items(title, price, inventory, author, genre) 








图 5-8 存在 多 对 多 匹配 的 两 个 模式 


本 节 中 ,我 们 将 讨论 如 何 对 现 有 的 模式 匹配 技术 进行 扩展 ， 从 而 得 到 多 对 多 的 匹配 。 
最 大 的 挑战 在 于 ， 由 于 存在 很 多 复合 属性 ， 所 以 就 会 有 很 多 候选 匹配 需要 检查 。 而 在 一 对 
一 的 匹配 中 ， 最 坏 的 情况 只 是 对 两 个 模式 中 所 有 元 素 的 笛 卡 儿 积 的 相似 度 进行 检查 ， 复 合 
元 素 的 数量 可 能 非常 大 ， 甚 至 是 没有 边界 的 。 例 如 ， 有 很 多 种 方法 来 连接 多 个 字符 串 属 
性 ， 包 含 多 个 数值 型 元 素 的 函数 可 能 有 无 数 多 个 。 


usi] 
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我 们 把 寻找 匹配 的 问题 视 为 一 种 搜索 问题 ( 见 图 5-9) 。 首 先 产 生 候选 元 素 对 ， 其 中 
的 一 个 或 两 个 元 素 都 是 复合 元 素 。 然 后 迭代 地 产生 多 个 元 素 对 ， 并 像 检 测 其 他 候选 匹配 一 
样 ， 对 产生 的 元 素 对 进行 检测 。 





图 5-9 ”为 了 发 现 复合 属 性 之 间 的 匹配 ,我 们 采用 多 个 搜索 器 来 产生 候选 匹配 。 我 们 使 用 前 面 介绍 的 
匹配 器 和 组 合 器 进行 检查 。 当 匹配 的 预测 质量 改变 不 是 很 大 时 ， 就 可 以 终止 该 搜索 器 

我 们 可 以 采用 多 个 专用 搜索 器 来 产生 候选 元 素 对 。 每 一 个 专用 搜索 器 重点 关注 一 种 数 
据 类 型 (如 文本 、 字 符 串 、 数 字 ) ， 并 且 只 考虑 适合 该 数据 类 型 的 复合 元 素 。 该 策略 有 很 
好 的 扩展 性 。 例 如 ， 很 容易 增加 其 他 专用 搜索 器 ， 这 些 搜索 器 主要 关注 地 址 域 以 及 相应 的 
组 合 ， 或 者 名 字 相 关 域 的 某 些 特定 合并 方法 。 

一 个 搜索 器 包含 3 个 部 分 : 搜索 策略 、 候 选 匹 配 的 评估 方法 和 终止 条 件 。 下 面 将 逐个 
介绍 它们 。 


搜索 策略 

搜索 策略 主要 包括 两 部 分 。 我 们 定义 一 个 候选 匹配 集合 ， 搜 索 器 使 用 操作 符 集合 来 寻 
找 这 些 候选 匹配 ， 并 且 搜 索 器 还 会 用 这 些 操作 符 来 构建 复合 元 素 ( 如， 连接 、+ 、* )。 
其 次 ， 由 于 可 能 的 复合 元 素 集合 非常 大 ， 甚 至 没有 边界 ， 所 以 搜索 器 需要 一 个 控制 搜索 过 
程 的 方法 。 常 见 的 技术 是 使 用 定向 搜索 (beam search) ， 该 方法 在 搜索 过 程 的 任何 时 刻 都 
会 保留 个 最 好 的 候选 项 。 


评估 候选 匹配 

给 定 一 个 复合 元 素 对 (每 个 模式 一 个 元 素 )， 可 以 用 前 面 介绍 过 的 技术 来 评估 它们 的 
相似 度 。 和 以 前 一 样 ， 评 估 的 结果 就 是 对 匹配 的 预测 。 搜 索 器 的 类 型 可 以 表明 哪个 匹配 器 
更 合适 。 
终止 条 件 

在 有 些 情况 下 ， 当 可 能 的 复合 元 素 集 合 比 较 小 时 ， 搜 索 会 自动 终止 。 但 是 ， 当 复合 元 
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素 集合 特别 大 或 者 没有 边界 时 ， 则 需要 一 个 终止 算法 的 方法 。 当 发 现 收益 递减 〈diminish- 
ing returns) 时 就 终止 算法 。 在 定向 搜索 算法 的 第 i 次 迭代 中 ， 对 目前 为 止 发 现 的 任何 匹配 
的 最 大 值 进 行 追踪 ， 记 为 Maxi。 当 Max, 和 Max, ,之 间 的 差 小 于 某 个 给 定 阐 值 86 时， 就 停 
止 搜索 ， 并 返回 前 个 匹配 。 


例 5.18 为 了 发 现 图 5-8 中 模式 SOURCE 和 模式 TARGET 之 间 的 多 对 多 匹配 ， 我 们 
采用 两 个 搜索 器 。 第 一 个 是 字符 串 搜 索 器 。 该 搜索 器 主要 考虑 字符 串 类 型 的 属性 ， 并 尝试 
通过 连接 来 对 其 进行 合并 。 第 二 个 是 数值 搜索 器 ， 主 要 关注 数值 型 的 域 ， 并 采用 算术 操作 
符 进行 合并 ， 如 加 、 乘 和 一 些 常数 (如 32、5/9 (从 华氏 温度 到 摄氏 温度 ) 和 2. 54 (把 英 
寸 转 换 成 厘米 ) ) o 

当 算 法 为 Items 中 的 属性 author 寻找 匹配 时 ， 将 会 考虑 下 列 元 素 : title, author- 
FirstName、authorLastName、concat ( title, authorFirstName ) 、concat ( author- 
FirstName, authorLastName). concat( authorLastName, uthorFirstName) 等 。 当 
寻找 Inventory 中 属性 price 的 匹配 时 ， 会 检查 很 多 组 合 ， 主 要 包括 basePrice + taxRate、 
basePrice * taxRate, basePrice * (1 + taxRate ) basePrice + quantity 和 taxRate x 
quantity。 <<< 


5.10 ”由 匹配 到 映射 


在 5.1 节 中 ,为 了 创建 数据 源 的 描述 信息 ,我 们 经 常 首先 创建 语义 匹配 ， 然 后 从 匹配 
得 到 映射 。 之 所 以 首先 创建 匹配 ， 是 因为 比较 容易 从 设计 者 那里 得 到 匹配 ， 并 且 要 求 设计 
者 对 每 个 模式 元 素 进行 推理 和 判断 。 到 目前 为 止 ， 也 存在 一 些 技术 可 以 使 匹配 系统 能 够 猜 
测 一 些 匹配 。 

在 把 匹配 转 义 为 映射 的 过 程 中 ， 关 键 的 挑战 是 使 匹配 充实 化 、 具 体 化 ， 并 把 所 有 匹配 
变 成 一 个 统一 的 整体 。 包 括 确定 一 些 可 以 作用 在 源 数据 和 目标 数据 上 的 操作 ， 基 于 这 些 操 
作 ， 数 据 可 以 相互 转换 。 特 别 是 ， 在 创建 映射 时 ， 需 要 通过 连接 和 并 操作 对 源 和 目标 中 数 
据 的 表 组 织 结构 进行 调整 ， 使 其 一 致 。 也 包括 指定 针对 数据 的 其 他 操作 ， 如 列 过 滤 、 使 用 
聚集 、 结 构 分 解 等 。 

在 给 定 创建 映射 复杂 度 的 情况 下 ， 整 个 过 程 需 要 一 个 有 效 的 用 户 接口 支持 。 例 如 ， 设 
计 者 应 该 可 以 通过 一 个 图 形 用 户 接 口 来 指定 映射 并且 系统 能 够 自动 产生 映射 描述 ， 这 样 
就 可 以 为 设计 者 节省 大 量 工作 。 除 此 之 外 ， 系 统 应 该 在 每 一 步 都 为 设计 者 展示 相应 的 样本 
数据 实例 ， 设 计 者 可 以 据 此 判断 他 所 定义 的 转换 是 否 正 确 ， 并 且 ， 必 要 时 应 该 允许 设计 者 
进行 修改 错误 。 

本 节 主 要 描述 如 何 探寻 可 能 的 模式 映射 空间 。 给 定 一 个 匹配 集合 ， 我 们 设计 一 个 针对 
可 能 的 模式 映射 的 搜索 算法 ， 这 些 可 能 的 映射 是 与 给 定 匹 配 相 一 致 的 。 我 们 可 以 根据 一 些 
常见 的 模式 设计 原理 来 定义 合适 的 搜索 空间 。 此 外 ， 当 把 映射 展示 给 设计 者 时 ， 这 些 原理 
还 可 以 提供 一 些 模 式 排序 方法 。 我 们 通过 一 个 例子 来 介绍 这 些 概 念 背后 的 基本 原理 。 


例 5.19 图 5-10 显示 了 源 模式 university 和 accounting 模式 之 间 匹 配 的 子 集 。 
匹配 f 表明 关系 PayRate 的 HrRate 和 关系 WorksOn 的 Hrs 的 乘积 对 应 于 目标 关系 
Personnel 的 属性 Sal, 


[152] 


[153 ] 
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Address ee i Addr 





图 5-10 ”从 多 个 表 中 合并 匹配 。 匹 配 几 表明 HrRate 和 Hrs 的 乘积 对 应 于 Personnel 的 属性 Sal， 但 问题 是 
对 哪些 表 进 行 连接 操作 从 而 来 构建 包含 这 两 个 属性 的 表 。 匹 配 表明 薪水 也 与 Sal 对 应 ， 但 问题 
是 是 否 要 对 教授 的 薪水 和 雇员 的 薪水 进行 合并 ， 或 者 把 从 两 个 匹配 计算 出 来 的 薪水 进行 连接 


模式 映射 需要 指定 如 何 对 源 中 的 关系 进行 连接 操作 ， 从 而 把 数据 映射 到 目标 上 ， 这 种 选择 
并 不 是 很 容易 的 。 在 该 例 中 ， 如 果 属 性 ProjRank 是 属性 PayRate 的 外 键 ， 那 么 自然 映射 是 : 


SELECT P.HrRate * W.Hrs 
FROM PayRate P, WorksOn 
W WHERE P.Rank = W.ProjRank 


然而 ， 假 设 ProjRank 不 是 外 键 ， 而 WorksOn 的 属性 name Æ Student 的 外 键 ， 并 且 
Student 的 属性 Yr 是 PayRate 的 外 键 。 那 么 ， 薪 水 就 依赖 于 学 生 的 年 份 。 在 这 种 情况 下 ， 
下 面 的 连接 就 是 自然 映射 : 


SELECT P.HrRate * W.Hrs 
FROM PayRate P, WorksOn W, Student S 
WHERE W.Name=S.Name AND S.Yr = P.Rank 


如 果 声 明 所 有 3 个 外 键 ， 那 么 就 无 法 清楚 地 判断 上 述 的 连接 中 ， 哪 一 个 是 正确 的 。 事 
实 上 , 一 个 正确 的 映射 也 有 可 能 不 用 做 任何 连接 操作 ， 映 射 也 有 可 能 是 PayRate 和 Work- 
sOn 之 间 的 交叉 乘积 ， 不 过 这 种 可 能 性 比较 小 。 

假设 第 一 个 匹配 f 的 映射 涉及 3 个 表 PayRate, WorksOn 和 Student 的 连接 。 第 二 个 
匹配 . 户 表 明 Professor 的 属性 salary 映射 到 目标 中 的 属性 Sals 的 一 种 解释 是 fi 产生 的 
值 应 该 与 产生 的 值 进行 连接 。 然 而 ， 这 就 意味 着 源 数据 库 中 的 大 多 数值 都 无 法 映射 到 目 
标 中 。 相 反 ， 一 个 更 自然 的 解释 是 有 两 种 方法 来 计算 雇员 的 工资 属性 ， 一 种 方法 应 用 于 教 
授 ， 另 一 种 方法 应 用 于 其 他 雇员 。 该 种 解释 对 应 的 映射 为 ; 


(SELECT P.HrRate * W.Hrs 

FROM PayRate P, WorksOn W, Student S 

WHERE W.Name=S.Name AND S.Yr = P.Rank) 

UNION ALL 

(SELECT Salary 

FROM Professor) << 


上 述 的 例子 说 明了 两 个 原则 。 第 一 个 原则 是 ， 给 定 一 个 匹配 集合 ， 当 可 能 的 映射 空间 
不 是 十 分 明确 的 情况 下 ， 就 需要 有 一 些 相 应 的 结构 。 第 一 种 选择 是 如 何 进行 关系 连接 ， 第 
二 种 选择 是 如 何 对 多 个 关系 执行 并 操作 。 这 两 种 选择 构成 了 映射 空间 的 基础 。 

第 二 个 原则 是 ， 虽然 我 们 前 面 所 做 的 选择 似乎 具有 启发 式 性 质 ， 但 实际 上 这 些 选择 都 
具有 坚实 的 理论 基础 。 例 如 ， 当 只 有 一 个 外 键 时 ， 我 们 一 般 比 较 倾向 于 简单 的 连接 查询 ， 
这 主要 是 基于 这 样 一 种 直觉 : 当 把 源 映射 到 目标 时 ， 我 们 会 执行 逆 规 范 化 ， 而 源 数据 的 设 
计 者 往往 对 数据 进行 规范 化 。 当 确实 不 想 丢失 源 数 据 项 中 的 任何 联系 时 ， 我 们 可 以 通过 笛 
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卡 儿 积 进行 映射 连接 。 如 果 源 数据 中 的 每 一 个 数据 项 在 目标 中 都 有 所 表示 ， 除 非 某 个 数据 
项 被 直接 过 滤 掉 了 ， 否 则 我 们 就 会 把 Professor 和 PayRate 中 的 数据 进行 合并 。 上 述 原则 
就 是 算法 中 对 映射 进行 排序 的 基础 。 

在 介绍 算法 之 前 ， 我 们 先 把 例子 介绍 完 。 图 5-11 显示 了 更 多 的 匹配 。 


Personnel 





图 5-11 图 5-10 中 的 完整 匹配 集合 


fs: Professor(id) ~ Personnel(Id) 

fa: Professor(name) ~ Personnel(Name) 

fs: Address(Addr) ~ Personnel(Addr) 

fe: Student(name) ~ Personnel(Name) 

这 些 匹配 很 自然 地 分 为 两 个 集合 。 第 一 个 集合 包括 fp、 记 、f MA, HTT Professor 
映射 到 Personnel， 并 且 指 明了 如 何 为 教授 构建 Personnel 的 元 组 。 第 二 个 匹配 集合 SL 
Alf.) 指定 了 如 何 为 其 他 的 雇员 构建 Personnel 的 元 组 。 在 算法 中 ,每 一 个 集合 都 称 为 一 
个 候选 集合 。 算 法 考察 每 一 个 候选 集合 中 的 所 有 可 能 的 连接 ， 并 且 考 虑 如 何 合 并 各 候选 集 
合 对 应 的 转换 。 

给 定 这 些 匹配 的 情况 下 ， 最 直观 的 映射 为 : 

(SELECT P.id, P.name, P.salary, A.Addr 

FROM Professor P, Address A 

WHERE A.id = P.id) 

UNTON ALL 

(SELECT NULL AS Id, S.name, P.HrRate*W.hrs, NULL AS Addr 

FROM Student S, PayRate P, WorksOn W 

WHERE S.name = W.name AND S.Yr = P.Rank) 


然而 ， 也 存在 很 多 其 他 可 能 的 映射 ， 这 些 映 射 没 有 执行 任何 连接 操作 ， 看 起 来 会 非常 
直观 : 


(SELECT NULL AS Id, NULL AS Name, NULL AS Sal, Addr 

FROM Address ) 

UNION ALL 

(SELECT P.id, P.name, P.salary, NULL as Addr 

FROM Professor P) 

UNION ALL 

(SELECT NULL AS Id, NULL AS Name, NULL AS Sal, NULL AS Addr 
FROM Student S) 


LER THEM RARARA 

接 下 来 将 会 介绍 一 个 搜索 算法 ， 算 法 的 输入 是 一 个 给 定 的 匹配 集合 ， 该 算法 将 对 可 能 
的 模式 映射 空间 进行 搜索 。 为 了 描述 方便 ， 我 们 只 介绍 目标 中 仅 包含 单个 关系 的 情况 。 对 
多 关系 的 扩展 可 以 作为 读者 的 一 个 简单 练习 。 
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我 们 所 描述 的 算法 本 质 上 是 一 种 交互 式 算 法 。 该 算法 搜索 可 能 的 映射 空间 ， 并 为 用 户 
提供 最 可 能 的 映射 。 在 算法 描述 中 ， 我 们 提 到 了 若干 个 启发 式 规则 。 如 果 存 在 更 好 的 启发 
R, 我 们 提 到 的 启发 式 可 以 被 替换 。 虽 然 在 我 们 的 描述 中 并 没有 体现 出 来 ， 但 是 我 们 可 以 
假设 ， 在 算法 的 每 一 步 ， 设 计 者 都 可 以 对 算法 做 出 的 决定 提供 相应 的 反馈 ， 并 使 算法 朝 正 
确 的 方向 执行 。 

算法 的 输入 是 一 个 匹配 集合 : M={f:(A,~B;)|, HEP, A, 是 源 5, 的 属性 集合 ，B， 
是 目标 S, 的 一 个 属性 。 我 们 也 允许 匹配 在 源 属性 上 使 用 过 滤器 。 过 滤器 可 以 在 一 个 属性 
上 或 者 一 个 属性 的 聚集 值 上 (如 均值 、 最 大 值 或 最 小 值 ) 指定 一 个 范围 约束 。 算 法 9， 
FindMpping 算法 ， 主 要 包括 4 个 阶段 。 


算法 9 FindMpping: 在 可 能 的 模式 映射 空间 中 搜索 








输入 : BAS, 和 5, 之 间 的 匹配 , M=1f:(A,~B,)| (44, 包含 的 属性 个 数 大 于 1 时 ， 形 式 为 
g(4i) ， 其 中 & 是 对 属性 进行 合并 的 函数 ) filte: 与 /; 相关 联 的 过 滤器 集合 。 
输出 : 查询 形式 的 映射 。 
| 阶段 1: 创建 候选 集合 | 
HV: = ivGM |S, 中 的 每 一 个 属性 最 多 被 提 及 一 次 | 
| 阶段 2:| 
G;=V 
for 对 于 任何 一 个 veV do 
if (A,~B,) ev, A, 包含 51 中 多 个 关系 中 的 属性 then 
使 用 启发 式 规则 1 和 2 来 搜索 连接 4; 中 的 关系 的 连接 路 径 
这 不 存在 连接 路 径 then 
从 9 中 返回 v 
end if 
end if 
end for 
| 阶段 3: | 
Covers: = |I | C9, 厂 包 含 了 M 中 的 所 有 匹配 ， 并 且 丁 的 任何 子 集 都 无 法 包含 所 有 的 匹配 /| 
selectedCover: = c e Covers, c 是 具有 最 少 候选 路 径 的 覆盖 
if Covers 中 有 多 个 覆盖 then 
利用 启发 式 3 选择 一 个 覆盖 
end if 
1 阶段 4:1 
for 对 于 selectedCover 中 的 每 一 个 覆盖 do 
创建 一 个 如 下 形式 的 查询 0.: 
SELECT vars 
FROM t,, t, tp 
WHERE cl ， e, d, Pis “ts Pm 
HP, vars 表示 yw 中 匹配 涉及 的 属性 
tis e, th 是 VU 的 连接 路 径 中 的 各 个 关系 
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c, o, d 是 V 的 连接 路 径 中 的 连接 条 件 
filter, ，… ，filter, 是 连接 路 径 中 的 过 滤 条 件 


end for 


return 查询 
Q, UNION ALL…UNION ALL Q, 
HY, Q, e, Q 是 前 面 创建 的 查询 


在 第 一 阶段 ,创建 所 有 可 能 的 候选 集合 ， 这 些 集合 都 是 S 的 子 集 ， 其 中 ，M 中 的 每 
个 属性 最 多 使 用 一 次 。 候 选集 合 的 集合 记 为 Y。Y 中 的 每 一 个 候选 集合 就 代表 计算 S 属性 
的 一 种 方法 。 需 要 说 明 的 是 ，” 中 的 集合 不 一 定 包含 S 的 所 有 属性 ， 因 为 有 些 属 性 可 能 不 
需要 最 后 的 映射 来 计算 。 如 果 一 个 集合 包含 S 的 所 有 属性 ， 那 么 我 们 称 为 完全 和 覆盖。 还 
需要 说 明 的 是 ，Y 的 元 素 不 一 定 是 不 相交 的 ,在 计算 5, 的 多 个 方法 中 可 以 使 用 相同 的 
匹配 。 


例 5.20 假设 有 如 下 匹配 : 
ADA = LCS A TD Ad Bm FC 
那么 ， 完 全 的 候选 集合 是 If. Al, th, Allo PTRRE Ail Al 和 IA} 
也 是 候选 集合 。 <<< 


在 算法 的 第 二 阶段 ， 考 察 集合 v 中 的 候选 集合 ， 并 在 每 一 个 候选 集合 中 搜索 最 好 的 连 
接 集 合 。 特 别 是 ， 对 于 一 个 候选 集合 vev， 并 假设 (A,~B,) ev, A, 包含 5, 中 多 个 关系 中 
的 属性 。 我 们 使 用 下 面 的 启发 式 规则 来 搜索 连接 A, 中 关系 的 一 个 连接 路 径 。 
启发 式 1 (寻找 连接 路 径 ) ”一 个 连接 路 径 可 以 是 : 
。 外 键 之 间 的 路 径 ， 
。 通过 检查 以 前 $ 上 的 查询 而 得 到 的 路 径 ， 或 者 
。 通过 挖掘 $ 中 可 连接 的 列 的 数据 而 发 现 的 路 径 。 s 
在 v 中 ,我们 需要 为 寻找 连接 路 径 的 候选 集合 的 集合 记 为 9。。 如 果 存 在 多 个 连接 路 径 
(如 例 5. 19 所 示 ) ， 那 么 使 用 如 下 启发 式 进行 选择 。 
启发 式 2 (选择 连接 路 径 ) ”优先 选择 外 键 之 间 的 路 径 。 如 果 存 在 多 个 这 样 的 路 径 ， 
那么 选择 在 匹配 中 某 一 个 属性 上 有 过 滤器 的 路 径 ( 如果 存在 这 样 的 路 径 )。 为 了 对 路 径 进 
一 步 排序 ， 选 择 外 连接 和 内 连接 之 间 估计 差别 最 小 的 连接 路 径 。 最 后 可 以 选择 拥有 最 少 不 
确定 元 组 的 连接 路 径 。 
算法 的 第 三 阶段 是 检查 9 中 的 候选 集合 ， 并 进行 合并 ， 从 而 能 够 包含 M 中 的 所 有 匹配 。 
特别 是 ， 需 要 搜索 匹配 的 覆盖 (cover) 。 如 果 5 的 一 个 子 集 T EUA M 中 的 所 有 匹配 ， 并 
且 是 最 小 的 ,那么 一 就 是 一 个 覆盖 。 如 从 太 中 移 除 一 个 候选 集合 后 ， 玉 就 不 再 是 一 个 
2 
在 例 5. 20 F, S={If. Al, th, At, Alh, Ai, Bilo TERAH T, = 
AR o Atl, =i, Al. th, 万 | 1。 如果 存在 多 个 覆盖 ， 则 可 以 采用 下 面 的 启 
发 式 来 进行 选择 。 
BRAS (选择 覆盖 ) ”如 果 存 在 多 个 和 覆盖， 那么 选择 候选 集合 数量 最 少 的 一 个 ， 因 
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为 一 般 情况 下 我 们 认为 ， 越 简单 的 映射 越 合 适 。 如 果 有 多 个 覆盖 含有 相同 数目 的 候选 集 
合 ， 那 么 选择 包含 较 多 S, ATEN i. 

算法 的 最 后 一 个 阶段 是 创建 模式 映射 表达 式 。 这 里 ， 用 SQL 查询 来 描述 映射 。 算 法 首 
先 为 选中 的 覆盖 中 的 每 一 个 候选 集合 生成 一 个 SQL 查询 ， 然 后 再 进行 合并 。 

假设 "是 一 个 候选 集合 ， 采 用 如 下 方式 构建 SQL 查询 0,。 首 先 ， 把 v 中 S, 的 属性 放 在 
SELECT 子 句 中 。 然 后 ， 将 2 的 连接 路 径 中 的 每 一 个 关系 都 放 到 FROM 子 句 中 ， 相 应 的 连接 
谓词 放 在 WHERE 子 句 中 。 此 外 ,匹配 中 的 每 一 个 过 滤器 也 加 到 WHERE 子 句 中 。 最 后 ， 
输出 一 个 查询 ,该 查询 把 覆盖 中 的 Q, 进行 合并 。 


参考 文献 注释 


模式 匹配 和 模式 映射 已 经 研究 了 数 十 年 。 综 述 [487] 总结 了 大 约 2001 年 之 前 最 新 的 技 
术 进 展 并 提 到 了 一 些 早期 的 工作 [68，111，434，465，472 ]。 综 述 [179 ] 和 专刊 [180， 
463 ] 讨论 了 截至 2005 年 的 工作 ， 而 [61] 则 讨论 了 截至 2010 年 的 研究 工作 (http ://dbs. uni- 
leipzig. de/file/vidb2011. pdf 对 最 新 工作 进展 进行 了 总 结 ) 。 其 他 与 该 主题 相关 的 书籍 包括 
[214, 241], 

本 章 介绍 的 架构 是 基于 LSD 系统 [181] 和 COMA 系统 [178] (详细 信息 参见 [371 ， 
511] ) 。 算 法 均 是 对 架构 的 不 同 部 分 进行 组 合 ， 而 不 是 把 它们 分 开 。 例 如 ，Similarity 
Flooding 算法 [427] 使 用 基于 字符 串 的 相似 度 对 匹配 进行 初始 化 ， 然 后 使 用 局 部 传播 算法 
在 整个 图 上 对 这 些 估 计 值 进行 扩散 。 

文献 [140] 讨 论 了 多 个 进行 模式 匹配 的 启发 式 。 文 献 [178，181 ] 在 模式 匹配 系统 中 引 
人 了 多 个 匹配 器 组 合 的 思想 。 文 献 [212] 也 提出 了 类 似 的 思想 。[384] 介 绍 了 如 何 使 用 机 
器 学 习 技 术 来 进行 模式 匹配 。LSD 系统 [181] 介 绍 了 多 个 基础 学 习 器 的 思想 ， 并 通过 学 习 
来 对 基础 学 习 器 进行 组 合 。 系 统 采用 一 种 称 为 “累积 法 ” (stacking)[549 ，576 ] 的 技术 来 
对 基础 学 习 器 的 预测 结果 进行 合并 。 文 献 [187 ] 主要 介绍 了 朴素 贝 叶 斯 学 习 器 ， 并 解释 了 
其 实际 应 用 效果 较 好 的 原因 。 机 器 学 习 技术 的 一 些 背 景 知 识 ， 特 别 是 基于 规则 的 学 习 方 法 
在 文献 [438] 中 进行 了 介绍 。 论 文 [570] 介 绍 了 一 种 针对 模式 匹配 和 数据 匹配 的 统一 方法 ， 
该 方法 主要 使 用 了 一 种 称 为 条 件 随机 场 的 机 器 学 习 技 术 。 

LSD 系统 引入 了 从 旧 匹 配 中 进行 学 习 的 思想 。COMA 系统 [178] 介 绍 了 一 种 重用 旧 匹 
配 的 简单 方法 〈 不 需要 进行 学 习 ) ， 并 考虑 了 对 多 个 旧 匹 配 进行 组 合 的 方法 。 论 文 [339 ] 
使 用 信息 论 技术 进行 模式 匹配 。 论 文 [206，208 ] 则 利用 了 相关 模式 元 素 的 查询 日 志 信息 
(如 在 join 子 句 中 的 元 素 ) 。 

基于 语料库 的 模式 匹配 [406] 则 介绍 了 如 何 利用 特定 领域 中 的 模式 和 映射 语料库 来 
改进 模式 匹配 。 论 文 [295 | 主要 分 析 了 Web 表单 的 统计 特性 ， 从 而 对 某 个 特定 领域 的 中 
介 模 式 以 及 从 数据 源 到 中 介 模 式 的 映射 进行 预测 。 论 文 [581 ] 主要 讨论 了 如 何 通过 交互 
式 的 聚 类 方法 对 模式 集合 进行 匹配 。 论 文 [510] 讨论 了 如 何 基于 概率 映射 对 聚 类 结果 进 
行 排序 。 

多 个 模式 匹配 系统 都 考虑 了 如 何 使 用 域 约束 来 过 滤 和 改进 模式 匹配 [181，183，407， 
427] 。5.6 节 中 介绍 的 “近邻 自 适应 算法 ”来 自 [407] ，A' 算法 来 自 [181]。 论 文 [183] 
介绍 了 一 种 松弛 标记 算法 ， 该 算法 利用 大 量 的 域 约束 来 进行 类 别 匹配 。 
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模式 匹配 系统 中 的 用 户 交 互 和 增 量 的 模式 匹配 在 [78，181，222，240 ，581 ] 中 进行 了 
介绍 。 论 文 [420，421] 讨 论 了 基于 众 包 的 模式 匹配 方法 。 

iMap 系统 [372 ] 主 要 解决 复杂 映射 的 搜索 问题 。 文 献 1 92，251 ] 介 绍 了 如 何 寻 找 具 有 
包含 关系 的 复杂 匹配 的 相关 技术 。[25，43，289，306 ] 主要 讨论 了 如 何 匹 配 大 规模 模式 。 
Gal[ 240] 则 介绍 了 寻找 Top- 模式 匹配 的 复杂 度 。 

模式 匹配 系统 中 往往 存在 大 量 的 参数 ， 参 数 调整 是 非常 困难 的 一 件 事情 。 文 献 [62 ， 
201，371，511] 则 对 参数 调整 问题 进行 了 讨论 。 

文献 [410] 讨论 了 如 何 使 用 语义 匹配 “as is” 来 构建 深层 网 络 候 虫 ， 而 不 需要 把 它 变 
成 语义 映射 。 

Clio 系统 最 早 讨论 了 在 给 定 模 式 匹 配 的 情况 下 ， 如 何 生成 模式 映射 的 问题 [302， 
432], 5.10 节 中 介绍 的 算法 和 例子 来 自 [432] 。 这 些 参 考 文献 也 介绍 了 如 何 将 算法 扩展 到 
有 聚集 的 映射 ， 以 及 如 何 构建 一 些 有 代表 性 的 例子 ， 这 些 例 子 有 助 于 设计 者 发 现 正确 的 匹 
配 。 有 关 该 主题 的 工作 还 有 [21，23，24，30，220，254] 。 

最 后 ， 本 体 匹 配 和 映射 的 相关 问题 也 得 到 了 很 大 关注 。[ 183 ] 介绍 了 一 个 用 于 本 体 匹 
配 的 系统 ， 该 系统 所 采用 的 架构 与 本 章 所 描述 的 架构 类 似 。[214] 讨论 了 截至 2007 年 的 最 
新 研究 进展 ， 网 站 http ://ontologymatching. org 包含 了 与 该 主题 相关 的 大 量 有 用 信息 。 
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Principles of Data Integration 


通用 模式 操作 


第 5 章 讨论 了 模式 匹配 和 模式 映射 的 相关 技术 。 映 射 和 匹配 技术 可 以 直接 用 于 数据 从 
一 个 模式 到 另 一 个 模式 的 转换 ， 这 也 是 本 书 关注 的 焦点 。 然 而 ， 我 们 希望 对 模式 进行 更 多 
的 操作 ， 而 不 仅 限 于 简单 地 将 数据 从 一 个 模式 映射 到 另 一 个 模式 。 例 如 ， 我 们 希望 将 两 个 
模式 合并 为 一 个 模式 从 而 可 以 描述 所 有 数据 。 我 们 还 希望 将 数据 模式 从 一 个 数据 模型 转换 
为 男 一 个 数据 模型 (例如 ， 关 系 模型 转换 为 XML)。 给 定 3 个 模式 4、B 和 C， 以 及 模式 
之 间 的 映射 关系 4 一 B 和 B8 一 C， 我 们 想 要 将 这 两 个 映射 组 合生 成 一 个 新 的 映射 4 一 C。 

一 般 来 说 ， 人 们 可 以 为 模式 和 映射 的 通用 操作 定义 一 个 代数 系统 。 这 些 操 作 以 模式 和 映 
射 作为 输入 ， 以 模式 或 映射 作为 输出 。 这 样 的 代数 类 似 于 为 数据 操作 定义 的 代数 ， 是 所 有 现 
代 查 询 处 理 器 的 基础 。 该 代数 也 称 为 一 组 模型 管理 操作 (model management operator) ， 这 里 
的 模型 是 一 个 更 宽泛 的 概念 ， 它 可 以 指 一 个 模式 、 面 向 对 象 语言 中 的 一 组 类 、 一 个 本 体 等 。 

接 下 来 ， 用 一 个 例子 说 明 数 据 集成 中 一 组 通用 模型 管理 操作 的 使 用 。 


例 6.1 以 建立 并 维护 一 个 数据 集成 应 用 的 过 程 为 例 〈 见 图 6-1) 。 假 设 我 们 的 目标 是 
对 数据 源 S, 和 S, 构建 一 个 数据 集成 应 用 。 


a) ~ -> G, Mio, Me 


图 6-1 可 以 将 数据 集成 中 常见 的 任务 建 模 成 一 组 模型 管理 操作 。 为 了 建立 一 个 包含 S AS, 的 集成 应 
用 ， 首 先 创建 它们 之 间 的 一 个 映射 ， 然 后 用 合并 操作 将 这 两 个 模式 合并 生成 中 介 模 式 G6。 为 了 
添加 一 个 新 的 数据 源 5; ， 首 先 将 它 与 一 个 已 有 数据 源 (5,) 进行 匹配 并 且 将 这 些 映射 进行 合 
并 获得 从 S, 到 G 的 一 个 映射 se 


首先 创建 一 个 包含 S 和 5, 信息 的 中 介 模 式 ， 以 及 每 个 数据 源 到 该 中 介 模 式 的 映射 。 
此 过 程 可 以 分 为 以 下 两 步 。 第 一 步 ， 使 用 模型 管理 的 匹配 (match) 操作 (该 操作 完成 第 
5 章 讨论 的 模式 匹配 和 映射 ) 创建 数据 源 S 和 5, 之 间 的 一 个 模式 映射 Ma (IEI 6-1a)。 
第 二 步 ， 对 模式 S, MS, 以 及 映射 Wi 使 用 模式 的 合并 (merge) 操作 创建 一 个 中 介 模 式 
G 〈 见 图 6-1b) 。 合 并 操作 将 创建 一 个 包含 S 和 $ 所 有 信息 的 新 模式 ， 但 它 将 对 两 个 模式 
中 的 相同 信息 进行 合并 ， 因 此 合并 后 的 信息 没有 重复 。 合 并 操作 还 将 创建 S 和 5, 到 C 的 
映射 Ms 和 Mc。 

现在 假设 我 们 需要 向 系统 中 添加 另 一 个 数据 源 S;， 并 且 假 设 $5; AS, 非常 相似 。 我 们 
可 以 分 两 步 添加 S: (1) AAS, AS, 非常 相似 ， 所 以 很 容易 使 用 匹配 操作 创建 一 个 S, 
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和 S, 之 间 的 映射 Mas; (2) 通过 组 合 映 射 M3 和 Mio 来 使 用 一 个 组 合 操 作 创建 映射 Mco 
无 论 虚拟 的 还 是 数据 仓库 式 的 数据 集成 都 是 模型 管理 操作 的 关键 应 有 用。 然而， 这些 模 
型 操作 在 其 他 一 些 任务 中 也 非常 有 用 : 
。 消息 传递 系统 : 消息 传递 系统 要 求 以 特定 的 格式 来 传递 消息 (例如 ，XML 模式 )， 
但 是 数据 通常 存储 于 后 台 系统 中 ， 如 关系 数据 库 。 因 此 ， 数 据 需 要 从 其 存储 的 模 
型 和 模式 转换 成 目标 消息 的 格式 。 在 接收 端 ， 则 需要 执行 相反 的 转换 。Web 服务 
和 消息 队列 中 间 件 通常 使 用 消息 传递 系统 。 
。 包装 器 生成 工具 (参见 第 9 E): 包装 器 需要 将 数据 从 一 个 数据 模型 转换 成 另 一 个 
数据 模型 ， 其 间 可 能 使 用 一 种 模式 映射 。 例 如 ,常见 的 场景 是 某 个 编程 语言 描述 
的 对 象 模型 与 一 个 关系 模式 之 间 的 转换 。 
在 上 述 以 及 其 他 任务 中 ,手工 执行 这 些 操作 会 耗费 企业 大 量 的 人 力 。 开 发 一 组 通用 的 
模型 管理 操作 可 以 很 大 程度 上 简化 这 些 任 务 。 


6.1 ”模型 管理 操作 


我 们 首先 描述 模型 管理 的 基本 术语 及 其 主要 操作 。 模 型 管理 操作 处 理 两 种 类 型 的 对 
象 : 模型 以 及 模型 之 间 的 映射 。 模 型 描述 一 个 特定 应 用 (例如 ， 一 个 数据 源 的 关系 模式 ) 
中 的 数据 表示 。 模 型 是 一 个 特定 表示 系统 的 具体 实例 ， 该 表示 系统 称 为 元 模型 ( meta- 
model) 。 例 如 ， 关 系数 据 模型 、XML 数据 模型 和 Java 对 象 模 型 。 常 见 的 元 模型 编码 语言 
包括 关系 的 数据 定义 语言 (DDL) 、XML 模式 、Java 类 定义 、 实 体 关 系 模型 以 及 RDF。 例 
如 ， 关 系 元 模型 指定 一 个 模式 应 该 包含 一 组 关系 ， 每 个 关系 由 一 组 某 种 类 型 的 属性 组 成 。 
本 章 将 用 有 向 图 表示 所 有 的 模型 ， 其 中 节点 是 元 素 ， 边 表示 元 素 之 间 的 二 元 关系 ， 例 如 
is-a。has-a 和 type- of 表示 元 模型 的 不 同 结构 。 例 如 ， 关 系 模型 的 元 素 与 其 包含 的 属性 
之 间 具 有 has-a 关系 。 

映射 描述 了 一 对 模型 之 间 的 语义 关系 。 映 射 用 来 将 数据 实例 从 一 个 模型 转换 成 另 一 个 
模型 ， 或 者 将 一 个 模型 上 的 查询 重 构成 另 一 个 模型 上 的 查询 。 映 射 可 以 采用 各 种 表达 式 描 
述 ， 例 如 3.2.4 节 介 绍 的 GLAV 表达 式 。 

模型 管理 操作 应 该 可 以 组 合 ， 这 样 一 组 操作 可 以 按照 用 户 的 脚本 执行 。 一 些 模型 管理 
操作 可 以 完全 自动 地 执行 (例如 ，compose)， 而 其 他 一 些 操 作 可 能 需要 一 些 人 工 的 反馈 
(例如 ，match 和 merge) 。 模 型 管理 的 目标 不 是 完全 自动 地 执行 这 些 任务 ， 而 是 尽 可 能 
减少 人 工 参 与 。 下 面 介绍 一 些 常见 的 操作 ,本章 最 后 介绍 构建 通用 的 模型 管理 系统 ， 它 是 
支持 这 些 操作 的 “引擎 ” 。 

© 匹配 (match): 以 两 个 模型 S AS, 为 输入 ， 生 成 两 个 模型 之 间 的 一 个 模式 映射 

Mno WS 3 章 所 述 ， 一 个 映射 描述 了 一 个 约束 ， 在 该 约束 上 S 和 5, 的 实例 对 之 
间 相 互 一 致 。 匹 配 操作 假设 这 两 个 输入 模型 具有 相同 的 元 模型 。 在 创建 模型 的 过 
程 中 系统 可 以 从 用 户 寻 求 一 些 反馈 。 第 5 章 介绍 了 匹配 操作 的 相关 技术 。 

。 组 合 (compose): 该 操作 的 输入 为 模式 S 和 5, 之 间 的 映射 Wu 以 及 模式 S, 和 
S, 之 间 的 映射 Was ， 输 出 为 5S, 和 5; 之 间 的 直接 映射 M3。 如 17.5 节 所 述 ， 组 合 操 
作 的 算法 高 度 依赖 于 特定 的 元 模型 。 

。 &# (merge): 以 两 个 模型 S, MS, 以 及 它们 之 间 的 映射 Wi 作为 输入 。 合 并 操 
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作 输 出 一 个 合并 的 模型 5; ， 该 模型 包含 S 和 5, 的 所 有 信息 ,但 是 并 不 重复 包含 
两 个 模型 中 相同 的 信息 。6. 2 节 将 讨论 合并 操作 。 
e 模型 生成 (ModelGen) : 以 给 定 元 模型 At 的 一 个 模型 S 作为 输入 ,创建 不 同 的 
元 模型 At 的 一 个 模型 5,。 例 如 ， 模 型 生成 操作 可 以 将 一 个 关系 模型 转换 成 XML, 
或 者 将 一 个 Java 对 象 模型 转换 成 关系 模式 。6. 3 节 介 绍 该 操作 。 
e RRS} (Invert): LAS, 到 S, 的 映射 Mi 为 输入 ， 输 出 5, BS, 的 映射 Mao EiT 
Mi 应 该 可 以 根据 Sa 的 一 个 实例 计算 5, 的 一 个 实例 。6. 4 节 讨 论 逆 映 射 操作 。 
接 下 来 ,我 们 将 详细 介绍 这 些 模 型 管理 操作 。 参 考 文献 注释 包含 了 文献 中 其 他 一 些 相 
关 工 作 。 值 得 注意 的 是 ,我 们 的 操作 列表 并 不 完整 。 例 如 ， 已 经 有 一 些 工作 提出 了 diff 操 
作 ， 它 可 以 返回 两 个 模式 之 间 的 差异 。 


6.2 合并 操作 


合并 操作 (merge) 的 输入 为 : 两 个 模型 S$ 和 5,， 以 及 它们 之 间 的 映射 Ma; Hii 
HA: 一 个 新 的 模型 ， 其 包含 S, AS, 中 信息 的 并 集 ， 但 去 掉 了 两 个 模型 中 重复 出 现 的 信 
息 。 映 射 Wo 可 以 判断 哪些 信息 在 两 个 模型 中 都 存在 。 

图 6-2 描述 了 一 个 例子 ,说 明 当 合并 两 个 模型 时 需要 做 出 的 一 些 决 策 。 图 6-2 显示 了 
演员 (actor) 实体 的 两 个 模型 以 及 它们 之 间 的 一 个 映射 。 我 们 将 每 个 模型 描述 为 一 个 元 素 
图 。 实 线 表示 演员 元 素 actor 和 它 的 子 元 素 之 间 具 有 has-a 的 关系 。 虚 线 描述 了 构成 两 个 
模型 之 间 映 射 的 属性 对 应 关系 。 该 图 表示 并 不 知道 其 描述 的 是 什么 样 的 元 模型 。 因 此 该 图 
描述 的 可 能 是 一 个 演员 表 actor 的 关系 模式 ; 或 者 是 一 个 XML 模式 ， 其 演员 元 素 actor 包 
含 特定 的 子 元 素 。 





图 6-2 需要 合并 的 两 个 演员 模型 。 这 两 个 模型 采用 元 素 的 图 描述 。 实 线 表示 演员 元 素 actor MHF 
元 素 之 间 的 has-a 关系 。 虚 线 表 示 构 成 两 个 模型 之 间 映 射 的 属性 对 应 关系 


合并 操作 说 明了 定义 一 个 通用 模型 管理 操作 所 涉及 的 挑战 性 问题 。 乍 一 看 ， 合 并 操作 
需要 解决 3 种 冲突 。 下 面 逐 一 加 以 讨论 。 

合并 操作 需要 考虑 的 第 一 种 冲突 是 表示 冲突 (representational conflict)。 在 我 们 的 例子 
中 ， 演 员 的 姓名 在 一 个 模型 中 用 一 个 字段 表示 ， 而 另 一 个 模型 用 两 个 字段 表示 。 这 种 冲突 
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对 合并 操作 来 说 并 不 是 固有 的 ， 其 实际 上 依赖 于 两 个 模型 之 间 的 映射 。 例 如 ， 该 映射 将 指定 
first name 和 last name 是 否 是 name 的 子 元 素 。 实 际 上 ， 两 个 输入 模型 之 间 的 不 同 映射 可 
能 产生 不 同 的 合并 模型 。 因 此 ， 合 并 操作 只 接收 一 个 映射 作为 输入 。 除 了 映射 外 ， 合 并 操作 
的 输入 可 能 还 包含 一 些 规则 ， 用 来 指定 遇 到 表示 冲突 时 某 个 模型 应 该 优先 于 另 一 个 模型 。 例 
如 ， 如 果 将 一 个 数据 源 的 模式 与 中 介 模 式 合 并 ， 我 们 更 倾向 于 中 介 模 式 的 变化 尽 可 能 小 。 

合并 操作 需要 处 理 的 第 二 种 冲突 是 元 模型 冲突 。 例 如 ， 假 设 在 我 们 的 例子 中 S 是 一 
个 XML 模式 ，5, 与 合并 模型 是 关系 模式 。 因 为 关系 模式 并 没有 子 属性 的 概念 ， 所 以 没有 
现成 的 方法 来 完成 S 到 合并 模型 的 映射 。 

元 模型 的 不 匹配 也 不 是 合并 操作 所 固有 的 。 实 际 上 ， 模 型 之 间 的 转换 经 常会 遇 到 该 问 
题 。 因 此 ， 在 模型 管理 中 包含 了 一 个 独立 的 操作 modelGen 来 完成 元 模型 之 间 转 换 的 相 
关 任 务 。 

最 后 ， 第 三 种 冲突 对 合并 操作 非常 重要 ， 因 此 也 是 文献 中 通用 合并 算法 所 关注 的 焦点 。 
基本 冲突 是 指 所 有 模型 的 公共 表示 (并且 必须 能 够 捕捉 其 元 模型 的 所 有 方面 ) 一 一 有 时 也 称 
为 元 元 模型 ( meta- meta- model) 。 元 元 模型 是 模型 管理 操作 使 用 的 表示 系统 。 例 如 ， 在 例子 
H, 一 个 基本 冲突 涉及 合并 后 的 模型 中 对 zipcode 建 模 。 假 设 在 S, 中 zipcode 是 一 个 整数 ， 
然而 在 S 中 是 一 个 字符 串 。 而 元 元 模型 只 允许 属性 有 单个 类 型 ， 因 此 存在 冲突 。 

合并 算法 的 主要 任务 是 识别 基本 冲突 并 设计 解决 它们 的 规则 。 接 下 来 ， 我 们 给 出 两 个 例子 。 

。 基数 约束 : 在 元 元 模型 中 的 一 个 关系 R 上， 基数 约束 限制 了 元 素 y 的 数目 ， 对 给 

EH x, R(x, y) 的 数目 满足 该 约束 。 例 如 ， 在 关系 模型 中 ， 基 数 约束 要 求 每 个 
元 素 最 多 是 一 个 type- of 关系 的 起 点 (每 个 元 素 只 有 一 个 类 型 ) 。 注 意 基 数 约束 可 
以 提供 基数 的 下 界 或 上 界 。 

违反 这 种 约束 的 一 个 解决 方案 是 创建 一 个 新 的 类 型 ， 该 类 型 继承 多 个 类 型 。 
例如 ， 在 元 元 模型 中 创建 一 个 新 的 类 型 ， 它 继承 字符 串 类 型 和 整 型 ， 并 将 属性 
zipcode 声明 为 该 新 类 型 。 

© 无 环 约束 : 一 个 元 元 模型 可 以 要 求 某 个 关系 是 无 

环 的 。 例如， 在 我 们 的 元 元 模型 中 要 求 is-a 关 
系 是 无 环 的 。 然 而 ， 考 虑 图 6-3 中 的 一 个 简单 例 
子 。 左 侧 b 的 模式 是 a 的 一 个 子 集 ， 同 时 在 右 侧 
的 模式 中 声明 了 一 个 相反 的 is-a 关系 。 如 果 我 
们 合并 这 两 个 模型 并 且 继承 这 两 个 关系 ， 则 将 在 
a Fil b 之 间 获 得 一 个 is-a 关系 的 环 。 

解决 环 约束 的 常用 方法 是 将 环 中 的 所 有 元 素 折 合成 
合并 模型 中 的 一 个 元 素 。 在 我 们 的 例子 中 , 将 a 和 b 合 
并 成 一 个 元 素 。 当 然 ， 也 可 以 用 面向 领域 的 规则 来 指定 
一 个 不 同 的 解决 方案 。 


6.3 ”模型 生成 操作 


模型 生成 操作 (modelGen) 以 某 个 元 模型 中 的 一 个 模式 作为 输入 ， 将 其 转换 成 另 一 
个 元 模型 。 由 于 常常 需要 处 理 来 自 不 同 数据 源 的 数据 ， 所 以 在 模型 管理 场景 中 两 个 元 模型 





图 6-3 合并 操作 产生 环 
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之 间 的 转换 操作 很 常见 。 其 他 模型 管理 操作 ， 如 匹配 和 合并 操作 ， 通 常 假设 它们 的 输入 已 
经 应 用 了 modelGen 操作 ， 或 者 如 果 需 要 将 对 它们 的 结果 应 用 该 操作 。modelGen 操作 
最 常见 的 应 用 场景 是 XML 和 关系 模型 之 间 的 转换 或 者 一 种 编程 语言 (例如 Java 或 者 C#) 


的 对 象 模型 和 一 个 关系 模式 之 间 的 转换 。 


图 6-4 举例 说 明了 modelGen 操作 需要 解决 的 一 些 挑战 问题 。 该 图 显示 了 公司 的 两 个 
模型 以 及 它们 的 供应 商 模型 。 图 的 左 侧 显示 了 源 模型 (一 组 Java 类 的 定义 ) 作为 model- 
Gen 的 输入 。 我 们 的 目标 是 生成 右 侧 所 示 的 关系 模式 。 














public class Company { 
public string name; 


public class Supplier 
extends Company { 


} 


public class Item { 
public string ISBN; 
public int Cost; 

} 


public item[] parts; 


CREATE TABLE Company( 







Name varchar(50), 

oid int NOT NULL PRIMARY KEY) 
CREATE TABLE Supplier ( 

oid int NOT NULL PRIMARY KEY, 
isSameAs int NOT NULL UNIQUE 


FOREIGN KEY REFERENCES Company 
(oid) ) 


CREATE TABLE PartsArray( 


Supplier int NOT NULL 

FOREIGN KEY REFERENCES Company 
(oid), 

jtemISBN varchar(50), 

itemCost int) 





图 6-4 modelGen 操作 将 左 侧 的 类 层次 结构 转换 为 右 侧 的 关系 模式 
modelGen 操作 的 挑战 源 自 于 目标 元 模型 不 支持 源 元 模型 中 的 一 些 结构 。 在 我 们 的 例 


子 中 ， 有 如 下 难点 。 


1) 首先 ,在 SQL 中 没有 类 的 概念 ， 所 以 目标 模式 需要 将 这 些 类 转换 为 关系 表 。 

2) 另外 ，SQL 不 支持 继承 。 在 我 们 的 例子 中 ， 类 Supplier 是 Company 的 一 个 子 类 。 
目标 模式 需要 将 继承 转换 到 关系 中 〈 使 用 几 个 已 知 的 转换 之 一 ) 。 

3) 最 后 ，SQL 不 支持 数组 类 型 。 然 而 ， 在 输入 模型 中 类 Supplier 有 一 个 属性 parts 为 


数组 类 型 。 


为 了 将 Java 模型 转换 为 关系 模式 ，modelGen 需要 执行 下 面 的 转换 。 

© Tl 从 类 创建 关系 结构 。 例 如 ， 结 果 模 式 将 以 一 个 表 Company 替代 类 Company, 
该 表 包 含 一 个 表示 对 象 ID 的 属性 以 及 与 类 Company 相同 的 域 。 

e T2 Company 和 Supplier 之 间 的 继承 关系 使 用 垂直 分 割 来 表示 。 具 体 地 说 ， 结 果 
模式 将 包含 一 个 供应 商 表 Supplier， 其 包含 类 Supplier 特有 的 属性 。 每 个 供应 商 也 
将 在 表 Company 中 出 现 ， 并 且 从 表 Supplier 到 表 Company 有 一 个 外 键 关系 。 因 此 ， 
要 获得 供应 商 的 所 有 信息 需要 访问 Company 和 Supplier 两 个 表 中 的 所 有 属性 。 

e T3 将 数组 parts 表示 为 一 个 连接 联系 。 表 PartsArray 为 每 个 (supplier, part) 对 
包含 一 个 元 组 。 供 应 商用 一 个 属性 (Supplier) 来 表示 ， 它 是 表 Company 的 一 个 外 

E, 零件 用 它 的 两 个 属性 (ISBN 和 cost) 表示 。 
为 了 开发 通用 的 模型 管理 操作 ，modelGen 采用 的 方法 基于 识别 一 个 超 模 型 。 超 模型 
是 一 个 元 模型 ， 其 包含 潜在 元 模型 的 所 有 特征 (很 明显 ， 不 可 能 有 一 个 元 模型 可 以 包含 所 
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有 特征 ， 因 此 超 模型 根据 脑海 中 的 一 组 元 模型 进行 设计 ) 。 超 模型 知道 在 每 个 可 能 的 输入 
和 输出 元 模型 中 支持 哪个 结构 。 例 如 ， 超 模型 知道 关系 模式 所 包含 的 关系 及 其 属性 ， 对 象 
模式 由 一 组 具有 继承 关系 的 类 组 成 。 

modelGen 操作 以 元 模型 At 中 的 一 个 模型 M 以 及 一 个 输出 元 模型 M, 作为 输入 ， 将 
M 转换 成 M, 中 的 一 个 模型 。modelGen 的 算法 将 按照 如 下 3 个 步骤 执行 : 

步骤 1: 将 输入 模型 M 转化 成 超 模 型 。 其 结果 用 M “表示 。 

步骤 2: 当 模 型 M' 包 含 一 个 输出 元 模型 M, 不 支持 的 结构 时 ， 删 除 不 支持 的 结构 。 

步骤 3: 步骤 2 成 功 删除 所 有 不 支持 的 结构 ， 则 将 M' 转 换 成 M,。 

因此 ，modelGen 算法 的 难点 在 于 在 超 模型 中 表示 要 求 的 转换 ， 如 上 述 T1 ~ T3 所 示 。 
modelGen 操作 需要 解决 的 另 一 个 挑战 是 ， 将 元 模型 At 中 模型 M 的 一 个 实例 转换 成 元 模 
型 M, 中 模型 的 一 个 实例 。 


6.4 逆 映 射 操作 


在 某 些 场景 〈 例 如 数据 交换 ) 中 ， 模 式 映 射 被 认为 是 有 向 的 ， 定 义 为 从 源 模式 到 目标 
模式 的 转换 。 在 这 些 场景 中 出 现 的 一 个 重要 问题 是 ， 能 否 对 模式 映射 求 道 操作 。 一 个 模式 
映射 的 逆 映 射 应 该 以 目标 模式 的 实例 为 输入 ， 生 成 源 模式 的 实例 。 逆 映射 操作 (invert) 
算法 很 大 程度 上 依赖 于 指定 映射 的 精确 形式 。 本 节 假 设 有 一 个 关系 元 模型 以 及 用 元 组 生成 
依赖 指定 的 映射 ( 它 是 3.2.4 节 中 介绍 的 GLAV 公式 的 等 价 形式 ) 。 

主要 挑战 之 一 是 为 逆 映 射 操作 找到 一 个 理论 上 可 靠 、 实 际 有 用 的 定义 。 接 下 来 ,我 们 
考虑 如 下 一 些 定义 。 

第 一 个 定义 考虑 两 个 模式 3 和 了 ， 以 及 3 到 了 的 一 个 映射 M。 回 想 一 下 ，M 定义 一 个 
二 元 关系 ， 其 指定 3S 和 7 的 哪些 属性 对 彼此 一 致 。 具 体 地 ，M 定义 了 一 个 关系 C, J), 
其 中 7 是 5 的 一 个 实例 ,J 是 了 的 一 个 实例 。 当 O, J) 在 M 定 义 的 关系 中 时 ， 称 
MF-(I，J) 。 因 此 ， 很 自然 地 得 到 如 下 定义 。M 的 逆 映 射 W -是 定义 关系 (J, 1) 的 映射 ， 
HP MEU, J)o 

然而 ， 很 容易 看 出 在 该 定义 下 找 不 到 可 以 用 元 组 生成 依赖 表示 的 逆 映 射 。 任 何 由 一 组 
元 组 生成 依赖 定义 的 关系 要 确保 其 左 侧 满足 向 下 封闭 (closed down) 并 且 右 侧 满足 向 上 封 
闭 (closed up) 。 具 体 地 ， 如 果 了 是 7 的 子 实例 〈 即 了 是 了 元 组 的 一 个 子 集 )， 且 J 是 了 元 
组 的 子 集 ， 则 MEU, J) BREME, 也) 。 但 是 ， 这 也 意味 着 其 逆 关 系 右 侧 满足 向 下 
封闭 而 左 侧 满 足 向 上 封闭 ， 因 此 不 能 用 元 组 生成 依赖 表示 。 

逆 映 射 的 第 二 个 定义 基于 映射 组 合 。 具 体 地 ， 如 果 M A M' 的 组 合生 成 恒 等 映 射 ， 则 
定义 M'E M 的 逆 映 射 。 然 而， 该 定义 有 很 大 的 局 限 性 。 尤 其 是 ， 映 射 M 有 一 个 逆 映 射 当 
且 仅 当 满 足 如 下 条 件 : 1 AL 是 5 的 两 个 不 同 的 实例 ， 则 在 映射 M 下 它们 的 目标 也 是 不 
同 的 集合 。 因 此 ， 即 使 像 如 下 这 样 简单 的 两 个 映射 也 没有 其 逆 映 射 : 


Mı: P(x,y) 一 Q(x) 
Mp: P(xyz) 一 Q(X,y) A R(y,z) 


一 个 更 加 有 用 的 定义 基于 准 逆 映射 (quasi-inverse) 。 准 逆 映 射 也 基于 生成 恒 等 映 射 的 


日 ”注意 超 模型 和 元 元 模型 之 间 的 区 别 。 超 模型 是 一 个 元 模型 ， 其 包含 许多 其 他 元 模型 的 特征 。 元 元 模型 是 一 
种 描述 元 模型 的 语言 。 
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映射 组 合 ,但 以 一 种 相对 较为 宽松 的 方式 。 两 个 实例 之 间 更 为 宽松 的 等 价 关 系 1 二 了 定义 
H: WEIHER J, MHL, J) 4SAM4MEC,, J)o 


例 6.2 WER M, 为 例 。 令 五 是 仅 包含 元 组 PL1，2) WA, HELENE 
含 元 组 P(1, 3) 的 实例 。 它 们 关于 映射 M, 是 等 价 的 。 <<< 


如 果 M 和 M' 的 组 合 将 5 的 每 个 实例 1 映射 到 5 的 实例 了 使 得 [= 也， 则 定义 映射 M 是 
M 的 准 逆 映 射 。 下 面 的 例子 说 明了 逆 操作 和 准 逆 映 射 的 区 别 。 


例 6.3 下 述 映射 是 上 述 M, 映射 的 准 逆 映 射 : 

Mj: Q(x) — 3 y P(x,y). 

5 的 实例 1 包含 元 组 PCL, 2), X 使 用 映射 M, 生成 目标 模式 的 实例 J, HEE 
组 Q(1)。 

现在 ， 如 果 对 J, 使 用 映射 Wi ， 则 将 得 到 源 模式 的 实例 于 BETH P, A), 这 里 4 
是 一 个 任意 的 常量 。 

实例 了 和 7 互 不 相同 ， 因 此 Mi 不 能 看 成 是 M, 严格 的 逆 映 射 。 然 而 =h, HEF 
实 上 如 果 对 5 的 任意 实例 先 使 用 映射 M, 然后 再 使 映射 Mi 则 这 个 源 实例 和 生成 的 实例 相 
同 ， 因 此 Wi 是 M, 的 准 逆 映 射 。 <<< 


从 某 种 意义 上 说 ， 准 逆 映 射 可 以 精确 地 恢复 与 目标 相关 的 源 的 内 容 。 在 我 们 的 例子 
H, RARR P 的 第 一 个 参数 与 目标 相关 。 

评注 6. 1 ( 逆 映 射 与 数据 集成 ) 正如 前 面 提 到 的 ， 提 出 逆 映 射 的 动机 是 一 些 场景 中 假 
设 模式 映射 是 有 向 的 。 在 第 3 章 关 于 映射 的 讨论 中 ， 并 没有 假设 映射 是 有 向 的 。 我 们 关注 的 
是 映射 定义 的 源 实例 与 中 介 模 式 实例 之 间 的 关系 。 然 而 ， 数 据 集成 中 查询 应 答 方 面 的 大 量 工 
作 与 逆 映 射 非常 相关 。 尤 其 是 ， 当 数据 源 描 述 用 局 部 视图 描述 时 (参见 3.2.3 节 ) ， 高 效 的 查询 
应 答 算 法 采用 视图 定义 的 逆 映 射 操作 生成 中 介 模 式 的 元 组 。 两 者 的 主要 不 同 在 于 ， 第 3 章 中 描 
述 的 查询 应 答 算 法 仅仅 对 发 送 给 数据 集成 系统 的 特定 查询 相关 的 视图 进行 逆 映 射 操作 。 


6.5 ”模型 管理 系统 


最 初 各 种 模型 管理 操作 的 研究 目标 之 一 是 构建 一 个 通用 的 模型 管理 系统 ， 对 模式 和 了 映 
射 进行 操作 。 这 个 系统 将 支持 模型 之 间 映 射 的 创建 、 重 用 、 演 化 和 执行 ， 并 且 可 以 与 存储 
各 自 模式 和 映射 的 数据 管理 系统 进行 交互 。 

构建 这 样 的 系统 仍然 是 目前 研究 的 目标 。 开 发 模型 管理 系统 面临 的 一 个 挑战 是 ， 这 些 
操作 的 实现 通常 很 大 程度 上 依赖 于 具体 的 元 模型 ， 因 此 很 难 在 未 知 特定 模型 的 情况 下 构建 
这 样 一 个 系统 。 元 模型 的 一 个 很 大 不 同 在 于 ， 可 以 表达 的 完整 性 约束 的 类 型 以 及 用 于 表达 
它们 的 语言 。 


参考 文献 注释 


虽然 各 种 不 同 的 模型 管理 操作 方面 的 研究 已 经 有 一 段 时 间 , 但 Bernstein 等 人 [72， 
76] 首 次 提出 模型 操作 代数 以 及 构建 封装 所 有 模型 操作 的 模型 管理 系统 的 构想 。 在 最 近 的 
一 篇 论文 [77 ] 中 ，Bernstein 和 Melnik 进一步 改进 了 模型 管理 的 构想 ， 更 多 地 关注 复杂 映 
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射 的 语义 以 及 模式 管理 的 运行 态 支持 。 运 行 态 支持 包括 有 效 地 将 模式 映射 应 用 到 数据 实 
例 ， 管 理 数据 以 及 模式 的 更 新 。Melnik 等 人 [428 ] 介 绍 了 第 一 个 模型 管理 系统 ， 并 且 在 文 
献 [426] 中 提出 了 模型 管理 操作 的 语义 。 

Buneman 等 人 [99 | 最早 对 合并 操作 进行 了 研究 ， 提 出 合并 模型 的 语义 由 模型 格 的 最 小 
上 界 来 指定 。 然 而 ， 他 们 要 求 结果 模型 依附 于 一 个 特定 的 元 模型 。Pottinger 和 Bernstein 
L481] 以 通用 的 方式 将 合并 操作 定义 为 模型 管理 代数 的 一 部 分 。 他 们 发 现 了 不 同 的 冲突 ， 
并 且 提 出 一 个 通用 的 合并 算法 解决 很 多 情况 中 存在 的 基本 冲突 。 本 章 中 的 例子 来 自 于 [481 ] 。 

6.3 节 介 绍 的 modelGen 操作 的 基本 方法 是 Atzeni 等 人 [40] 提 出 的 。Mork 等 人 [445 ] 
在 多 个 方面 扩展 了 [40] 的 工作 。 尤 其 是 ，Mork 等 人 提出 的 modelGen 算法 不 需要 通过 中 
间 超 模型 生成 数据 实例 的 转换 ， 因 此 更 为 有 效 。 另 外 ， 他 们 的 算法 允许 设计 者 探索 从 类 层 
次 结构 到 关系 模式 更 为 丰富 的 转换 集 。 从 某 种 意义 上 说 ， 对 象 关系 映射 系统 (ORM), ， 例 
如 Hibernate， 可 以 看 成 是 modelGen 特殊 情况 的 实例 。 

Fagin[ 215 ] 最 初 研究 了 逆 映 射 操 作 ， 并 且 研 究 表明 逆 映 射 仅仅 在 有 限 的 情况 下 存在 。 
Fagin 等 人 [219] 介 绍 了 准 逆 映射 操作 。 

与 模式 管理 密切 相关 的 一 个 领域 是 支持 模式 演化 ， 虽 然 它 倾向 于 使 用 更 多 的 操作 语 
义 。 模 式 修改 操作 [444] 记 录 模 式 的 变化 ， 用 于 做 各 种 查询 重 写 [157，369 ] 。 
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Principles of Data Integration 


数据 匹配 


数据 匹配 的 主要 任务 是 找 出 描述 相同 的 现实 世界 实体 的 数据 项 。 第 4 章 中 讲 到 的 字符 
串 匹 配 主 要 是 判断 两 个 字符 串 是 否 代 表 相 同 的 实体 ， 而 本 章 讲 到 的 实体 可 能 有 多 种 表示 方 
式 ， 如 数据 库 中 的 一 个 元 组 、 一 个 XML 元 素 ， 或 者 一 个 RDF 三 元 组 集合 。 比 如 ， 我 们 想 
判断 两 个 元 组 (David Smith, 608-245-4367, Madison WI) 和 (D. M. Smith, 245- 
4367, Madison WI) 是 否 代 表 同 一 个 人 。 

数据 匹配 问题 存在 于 很 多 集成 应 用 场景 中 。 例 如 ， 我 们 想 合并 两 个 具有 相同 模式 的 数 
据 库 ， 但 是 这 两 个 数据 库 中 没有 全 局 ID ， 这 种 情况 下 ， 在 合并 的 过 程 中 我 们 就 需要 判断 哪 
些 元 组 是 重复 的 。 如 果 两 个 数据 源 模式 不 同 ， 问 题 会 更 加 复杂 。 有 些 查询 可 能 不 会 精确 地 
描述 所 要 查找 的 数据 项 ， 如 查询 居住 在 Madison 的 David Smith 的 电话 号 码 。 这 时 我 们 就 
需要 利用 数据 匹配 技术 来 判断 数据 库 中 的 哪个 元 组 符合 查询 要 求 。 本 章 中 我 们 首先 给 出 数 
据 匹 配 问题 的 定义 ,然后 介绍 相关 技术 。 


7.1 问题 定义 


假设 有 两 个 关系 表 和 和 了 了 ， 有 时 我 们 假设 和 和 了 的 模式 相同 ， 但 很 多 时 候 其 模式 并 不 
相同 。 假设 * 和 了 的 每 一 行 用 来 描述 一 个 实体 (如 人 、 书 或 者 电影 ) 的 某 些 属性 。 我 们 
认为 如 果 元 组 x e X 和 元 组 yeY 代表 同一 个 实体 ， 那 么 元 组 x* eX 匹配 元 组 Ye Y。 如 
图 7-1a、b 所 示 ， 给 定 两 个 表 X 和 Y， 属 性 包括 Name, Phone, City 和 State， 我 们 想 找 
到 匹配 的 元 组 (如 图 7-1c 所 示 )。 第 一 个 匹配 的 元 组 (x, ¥,) 表示 (Dave Smith, 
(608) 395 9462, Madison, WI) 和 (David D. Smith, 395 9426, Madison, WI) 
代表 同一 个 人 。 当 然 ， 我 们 这 里 考虑 的 是 关系 数据 的 数据 匹配 问题 ， 其 实 很 多 其 他 类 型 的 
数据 中 也 存在 数据 匹配 问题 。 

表 Y 















[Prone [ow [soe] e 


X 


CELE 


Yı | David D. Smith | 3959426 | Madison | wi | avd 

Xy Y; 

Joe Wilson | (408) 123 4265 Y2 | Daniel. Smith | 2561212 | Madison | wi | ai 
on 


a) b) c) 
7-1 描述 人 的 关系 元 组 匹配 


数据 匹配 和 字符 串 匹 配 的 难点 在 本 质 上 是 一 样 的 :匹配 的 准确 率 和 匹配 算法 的 可 扩展 
性 。 准 确 地 进行 数据 匹配 往往 比较 困难 ， 主 要 原因 在 于 表达 方式 的 不 同 、 使 用 缩写 、 不 同 
的 命名 习惯 、 省 略 、 昵 称 以 及 数据 中 存在 的 一 些 错误 等 。 我 们 可 以 把 一 个 元 组 的 所 有 属性 
连接 在 一 起 ， 把 每 一 个 元 组 看 成 是 一 个 字符 串 ， 这 样 就 可 以 利用 第 4 章 中 介绍 的 字符 串 匹 
配 技术 来 解决 数据 匹配 问题 。 有 时 候 这 种 方法 比较 有 效 ， 但 是 一 般 来 说 把 各 个 属性 分 开 进 


X, 


KX 
| Name | Phone | aw _ 


X3 
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行 考虑 ， 匹 配 的 效果 会 更 好 一 些 ， 因 为 可 以 用 一 些 更 复杂 的 技术 和 领域 知识 来 进行 数据 匹 
配 。 例 如 ， 如 果 两 个 元 组 中 的 名 字 和 电话 完全 一 样 ， 我 们 就 可 以 认为 这 两 个 元 组 是 匹 
配 的 。 

本 章 主要 介绍 数据 匹配 问题 的 多 种 解决 方案 。 第 一 种 是 规则 匹配 ， 规 则 需要 充分 利用 
领域 知识 并 确保 规则 的 复杂 度 是 可 控 的 。 第 二 种 是 学 习 匹 配 ， 如 有 监督 的 学 习 。 第 三 种 是 
聚 类 匹配 ， 聚 类 方案 中 没有 训练 数据 ， 而 是 反复 地 把 元 组 赋 给 不 同 的 类 ， 最 后 使 同一 个 类 
的 元 组 是 相互 匹配 的 ， 而 不 同类 中 的 元 组 不 匹配 。 

第 四 种 是 概率 匹配 ， 利 用 概率 分 布 对 数据 域 进 行 建 模 ， 然 后 基于 概率 分 布 进行 推理 来 
判断 是 否 匹 配 。 基 于 概率 的 方法 可 以 结合 大 量 的 领域 知识 ， 并 充分 利用 已 有 的 概率 表示 和 
推理 技术 知识 。 

上 述 几 种 方案 都 是 独立 地 进行 元 组 匹配 。 最 后 一 种 方案 是 协同 匹配 ， 该 方案 考虑 元 组 
之 间 的 相关 性 ， 从 而 提高 匹配 的 准确 率 。 例 如 ,“David Smith” 和 “Mary Jones” 是 合作 关 
系 ，“D. M. Smith” 和 “M. Jones. ”是 合作 关系 ， 如 果 我 们 能 够 判定 “David Smith” 与 
“D. M. Smith” 是 相互 匹配 的 ， 那 么 “Mary Jones” 匹 配 “M. Jones” 的 匹配 度 就 应 该 会 增 
加 。 协 同 匹配 可 以 把 一 个 匹配 结果 迭代 地 传递 给 其 他 的 匹配 结果 。 

后 面 的 章节 将 详细 介绍 上 述 各 种 方案 ，7.7 节 介 绍 扩展 性 问题 。 


7.2 规则 匹配 


本 节 主 要 介绍 基于 规则 的 匹配 方法 。 为 了 便于 描述 ， 我 们 假设 两 个 关系 表 具 有 相同 的 
模式 ， 当 然 也 可 以 很 容易 扩展 到 其 他 场景 中 。 一 个 常用 的 规则 是 计算 两 个 元 组 之 间 的 相似 
度 ， 元 组 的 相似 度 是 各 属性 相似 度 的 线性 加 权 和 : 


sim(x,y) = » * sim,(x,y) (7-1) 
HP n ER X MY WREDE, sim, (x, y)e[0, 1] 是 元 组 * 和 元 组 y 的 第 i 个 属性 的 相 
WHE, a, e [0,1] 是 第 i 个 属性 的 权重 , 并且 Dia; =1。 给 定 阐 值 8， 如果 sim(x，7) > 


B， 则 x 和 y 相互 匹配 ， 否 则 ， 不 匹配 。 

我 们 利用 一 个 线性 加 权 规 则 来 对 图 7-1 PR XMR Y 的 元 组 进行 匹配 。 首 先 针 对 属性 
name, phone, city 和 state 分 别 选择 合适 的 相似 度 函 数 。 为 了 匹配 姓名 ,采用 基于 
Jaro- Winkler 距离 (第 4 章 ) 的 相似 度 函 数 sne(x，Yy)。 为 了 匹配 电话 号 码 ， 采 用 基于 编 
辑 距 离 的 相似 度 函 数 swoe(x*，y) 。 城 市 也 可 以 采用 编辑 距离 。 对 于 州 ， 可 以 采用 精确 匹 
配 ， 如 果 两 个 州 的 字符 串 相 同 则 返回 1， 否 则 返回 0。 基 于 上 述 相 似 度 函数 ， 可 以 得 到 如 
下 规则 : 

sim(%,y) = 0.3s5m(%,y) + 0.3spmon (XY) +0. ls (2y) +0. 35 ie(4,¥) (7-2) 
直观 上 ， 上 述 规则 表明 ， 姓 名 (name) 、 电 话 (phone) 和 州 (state) 这 三 个 属性 所 占 
的 权重 比较 大 ,城市 (city) 属性 不 是 很 重要 (可 能 是 因为 人 们 在 写 城市 的 时 候 往往 只 写 
所 住 郊 区 的 名 字 或 者 只 写 城市 的 名 字 ) 。 假 设 阔 值 6 =0.7， 如 果 sim(x, y)>0.7, MPI 
人 是 匹配 的 ， 否 则 不 匹配 。 

有 一 点 需要 说 明 的 是 ， 匹 配 的 结果 在 实际 应 用 中 有 很 多 种 使 用 方式 。 例 如 ， 假 设 相似 
度 阔 值 是 0.7， 但 是 匹配 系统 可 以 允许 用 户 检查 相似 度 在 0.5 ~0. 8 之 间 的 所 有 相似 对 ， 根 
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据 具体 情况 做 出 最 终 判 断 。 


逻辑 回归 规则 

线性 加 权 规 则 有 如 下 几 个 特点 : 如 果 其 中 任何 一 个 相似 度 函 数 s; 的 值 增 加 A， 则 整 
AWE Rs 的 值 也 线性 地 增加 wA。 但 是 在 有 些 情况 下 ， 这 似乎 有 悖 常理 ， 比 如 当 
s 的 值 已 经 超过 某 个 特定 的 靖 值 之 后 ，s; 的 值 对 * 的 影响 应 该 逐渐 减 小 〈 这 就 是 所 谓 的 
收益 递减 原理 ) Hild, wes, (x, y) 已 经 是 0.95 了 ， 这 就 意味 着 姓名 已 经 非常 匹 
配 。 那 么 这 种 情况 下 ， 如 果 samel y) 的 值 再 进一步 增加 ， 对 s(*，y) 的 影响 会 比 
较 小 。 

逻辑 回归 规则 试图 利用 这 一 特点 ， 其 形式 如 下 : 

sim(x,y) = 1/(1 +e”) (7-3) 


其 中 z = Yas sim(x,7) ， 这 里 w 的 取 值 范围 并 不 要 求 在 [0，1] 内 ， 其 和 也 不 要 求 为 


1。 因 此 xz 的 值 也 不 要 求 在 [0, 1] 内 。 图 7-2 表明 ,， 随 着 z 从 - w 到 o 逐渐 增加 ， 
sim(x，y) 的 值 也 逐渐 增加 ,但 是 当 z 超过 一 定 阔 值 以 后 ，sim(x，y) 的 增加 越 来 越 小 ， 
从 而 达到 收益 递减 的 目的 。 





图 7-2 逻辑 回归 函数 的 一 般 形态 


逻辑 回归 规则 在 另外 一 种 情况 下 也 非常 有 用 : 只 需要 少 部 分 的 单个 子 相 似 度 函 数 其 
相似 度 接 近 于 1， 就 可 以 获得 一 个 足够 高 的 总 体 相 似 度 。 具 体 地 说 ,假设 在 相似 度 分 值 
中 有 大 量 单个 子 函数 (例如 ，10 ~15 个 )， 但 对 任何 实例 仅 有 少量 子 函数 相似 度 接近 于 
1。 然 而 ,我 们 假设 ， 只 要 其 中 一 部 分 子 函数 能 够 获得 较 高 的 相似 度 值 ， 就 认为 两 个 元 
组 是 匹配 的 。 这 样 逻辑 回归 规则 就 保证 了 ， 只 要 有 一 部 分 子 函数 能 够 获得 较 高 的 相似 
度 ， 就 可 以 得 到 较 高 的 总 体 相 似 度 ， 剩 下 的 其 他 子 函 数 对 总 体 相 似 度 的 影响 就 比较 小 。 


复杂 规则 


线性 加 权 规 则 和 逮 辑 回归 规则 都 比较 容易 构建 和 理解 。 但 是 在 有 些 比较 复杂 的 情况 
下 ， 上 述 两 种 规则 都 不 奏效 。 例 如 ， 如 果 两 个 人 名 字 相 同 ， 或 者 电话 号 码 与 地 址 都 相同 ， 
两 个 人 就 是 匹配 的 。 这 时 候 就 需要 构建 一 些 比较 复杂 的 规则 ， 这 些 规则 可 以 是 任何 形式 ， 
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也 可 以 包含 任何 单独 的 相似 度 函数 。 例 如 ， 假 设 当 且 仅 当 x* Al y 的 电话 号 码 完全 一 样 时 ， 
Spone (X> Y) 返回 rue，suv(xz，y) Al Sune (x, y) 采取 相同 的 假设 。 上 述 复杂 的 匹配 规则 
可 以 描述 为 : 

1) 如 果 son.(x*,，Y) <0.8， 则 返回 “不 匹配 ”。 

2) 否则 ， 如 果 sme(z，y) =true， 则 返回 “匹配 ”。 

3) 和 否则， 如果 sus(x*，7y) =true FFA sw.(x*，7Y) =true， 则 返回 “匹配 ”。 

4) 否则 ， 返 回 “ 不 匹配 ”。 

实际 应 用 中 有 很 多 数据 匹配 系统 都 采用 这 种 规则 ， 这 些 规则 一 般 都 采用 便于 理 
解 、 调 试 、 修 改 和 维护 的 高 级 声明 式 语言 来 描述 (很 少 用 过 程式 语言 来 描述 ， 如 Perl, 
Java 等 ) 。 

基于 规则 的 方法 虽然 比较 有 效 ， 但 是 实际 应 用 起 来 却 比 较 困 难 ， 主 要 是 因为 构建 一 个 
好 的 规则 是 一 件 非 常 费时 的 事情 ， 对 于 一 些 比 较 复杂 的 领域 知识 ， 甚 至 都 不 清楚 如 何 构建 
这 些 规则 。 后 面 将 介绍 的 基于 学 习 的 方法 可 以 解决 上 述 问 题 。 


7.3 学 习 匹 配 


本 节 主 要 介绍 基于 监督 学 习 的 匹配 方法 ,该 方法 基于 标记 样本 自动 构建 匹配 规则 。 下 
一 节 将 讨论 无 监督 学 习 方法 : 聚 类 方法 。 

从 形式 上 ， 有 监督 的 学 习 就 是 从 训练 数据 中 通过 学 习 得 到 一 个 匹配 模型 M， 然 后 再 用 
M 去 匹配 新 的 元 组 对 。 训 练 数据 一 般 采 用 如 下 形式 : 

T = | (HH by) (%2 Fa 1) (Xn ya stn) | 
BP, (x, yis L) 包含 一 个 元 组 (x;，y;) 和 一 个 标签 L, WR x My, 匹配 ， 则 1 为 
“yes”, UA “no”. 

给 定 训练 数据 集 7T， 可 以 定义 一 个 特征 集合 A Sos ts 万， 每 一 个 特征 可 以 用 来 对 与 
匹配 规则 相关 的 一 个 方面 进行 量化 。 每 一 个 特征 fi 都 是 以 元 组 对 (x,，y) 为 输入 ， 输 出 一 
个 数值 型 的 、 类 别 型 的 或 者 二 进 制 型 结果 。 我 们 可 以 定义 一 些 与 匹配 规则 相关 的 特征 ， 学 
习 算法 可 以 通过 训练 数据 集 来 判断 哪些 特征 确实 是 相关 的 。 

接 下 来 ， 把 训练 集合 7 中 的 每 一 个 实例 (x;，y;，i;) 转换 为 一 个 新 元 组 : 

(fi CEY) Ae) ot Saisi) ,ci) 
其 中 ,v= Ale, 4), Ais Kids s f(xi，Yi)〉 是 元 组 对 (x;，y;) 的 特征 向 量 ，c 
ERE |, 的 一 种 转换 形式 ， 可 以 是 “yes”/ “no” 或 1/0。 这 样 训 练 集合 了 就 可 以 转换 为 
一 个 新 的 集合 T= {5 1), (Drs a), s (Drs Ca) bo 

我 们 可 以 利用 决策 树 或 者 支持 向 量 机 等 学 习 算 法 来 学 习 一 个 匹配 模型 7 ， 然 后 用 7 来 
匹配 新 的 元 组 对 。 给 定 一 个 元 组 对 (x*，y) ， 可 以 将 它 转换 成 一 个 特征 向 量 : 

v = f(x,y) 万 (zy) r Saly)? 
然后 可 以 把 M 应 用 到 向 量 "上 来 判断 x oy 是否 匹配 。 


例 7.1 针对 图 7-1 中 的 两 个 关系 表 世 和 了 ， 利 用 上 面 介绍 的 算法 来 学 习 一 个 线性 加 
权 规 则 〈 学 习 逻 辑 回归 规则 的 方法 类 似 ) 。 假 设 训练 集合 包含 3 个 实例 ， 如 图 7-3 所 示 。 
在 实际 中 ， 一 个 训练 集合 可 能 包含 数 百 到 数 万 个 实例 。 
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<a, = (Mike Williams, (425) 247 4893, Seattle, WA), b, = (M. Williams, 247 4893, Redmond, WA), yes> 
<a, = (Richard Pike, (414) 256 1257, Milwaukee, WI), b, = (R. Pike, 256 1237, Milwaukee, WI), yes> 
<a, = (Jane McCain, (206) 111 4215, Renton, WA), b, = (J. M. McCain, 112 5200, Renton, WA), no> 


a) 初始 的 训练 数据 


match names match phones match cities match states check area code against city 


Vi = <[s,(a,,5,), s,(a,,b,), $3(a,,b,), s4(a,,b,), s.(a,,b,), ae 


v, = <[s,(a,,b,), 5,(a,,b,), $;(@5,b,), $4(@,,6,), $,(a,,b,), slazbz)], 1> 


v3 = <[si(a3,b3), $(a3,b3), $3(a3,b3), $4(a3,b3), s<(a3,b3), selaa,b3)], o> 
b) 线性 加 权 和 逻辑 回归 规则 转换 后 的 训练 数据 
图 7-3 


假设 一 共 选 择 了 6 个 相关 的 特征 si ~s， 特 征 s, (a, b) 和 特征 s,(a, b) 分 别 基于 
Jaro- Winkler 距离 和 编辑 距离 来 计算 元 组 a 和 元 组 b 姓名 之 间 的 相似 度 值 。 之 所 以 基于 两 
种 距离 来 计算 姓名 之 间 的 相似 度 ， 主 要 是 因为 事先 不 知道 哪 种 更 为 合适 ， 所 以 两 种 都 计 
算 ， 由 学 习 算 法 来 决定 哪 种 更 合适 。 

特征 s;(a, b) 基于 编辑 距离 来 计算 电话 号 码 之 间 的 相似 度 (由 于 4 的 电话 号 码 缺 少 区 
F, 所 以 a 的 区 号 也 省 略 ) 。 当 城市 名 和 州 名 分 别 精 确 匹 配 时 ， 特 征 ss(c，2) 和 ss (a, b) 
分 别 返 回 1， 和 否则 返回 0。 

最 后 ，se(a, b) 定义 了 我 们 认为 对 匹配 有 帮助 的 一 个 启发 式 约 束 。 以 图 7-3a 中 的 元 
Ha, Alb, 为 例 ， 元 组 a 的 城市 是 Seattle， 而 元 组 b, 的 城市 是 Redmond。 但 是 ，o 的 电话 
号 码 425 247 4893 中 有 区 号 425, 425 恰好 是 Redmond 的 区 号 。 而 且 ， 姓 名 、 电 话 号 码 
( 除 区 号 外 ) 都 非常 接近 。 这 表明 a, Alb, 很 可 能 是 同一 个 人 ，al EE Redmond, 但 是 留 
的 城市 是 附近 的 城市 Seattle。 为 了 考虑 到 这 种 情况 ， 我们 定义 了 第 六 个 特征 s(a, b), 4 
果 &a 的 区 号 是 4 的 城市 的 区 号 ， 则 s(a, b) 返回 1， 否 则 返回 0。 如 前 所 述 ， 我 们 可 以 通 
过 学 习 算法 来 判断 该 特征 对 匹配 是 否 有 用 。 

定义 完 特征 s~s 之 后 ， 可 以 把 图 7-3a 中 的 训练 数据 转换 成 图 7-3b 中 的 向 量 集合 。 
每 一 个 特征 向 量 w ~vw 含有 6 个 值 ， 这 些 值 都 是 由 相应 的 特征 函数 计算 得 到 的 。 我 们 最 终 
的 目的 是 学 习 得 到 一 个 线性 加 权 相 似 度 函 数 s(a,，b) ， 该 函数 返回 一 个 数值 型 的 值 来 表示 
a Alb 的 相似 度 ， 因 此 需要 把 标签 “yes”/“no” 转 换 成 数值 。 如 “yes” 转 换 成 1 ，“no” 
转换 成 0， 如 图 7-3b 右 侧 所 示 。 

我 们 可 以 根据 图 7- 3b 中 的 训练 集 来 学 习 匹 配 规则 ， 主 要 任务 是 学 习 各 个 权重 a, 


ie[1,，6]， 然 后 利用 这 些 权重 就 可 以 得 到 一 个 形 如 s(a,b) = > si(a,b) 的 匹配 规则 。 可 以 


3 6 
利用 最 小 平方 线性 回归 方法 来 得 到 各 个 权重 a,，ie (1, 6], 使 得 平方 差 D (c - X as) 


最 小 ， 其 中 < 是 特征 向 量 v 对 应 的 标签 ，s,(v;) 是 特征 向 量 第 j 个 元 素 的 值 。 

接 下 来 的 任务 就 是 对 相似 度 阅 值 B 进行 学 习 ， 得 到 p 以 后 ， 就 可 以 对 一 个 新 的 元 组 对 
(a, b) 进行 预测 ， 如 果 s (a, b) SB, W (a, b) 匹配 ， 否 则 不 匹配 。 选 择 的 B 要 使 得 
误 判 的 数量 达到 最 小 。 <<< 


例 7.2 决策 树 学 习 算法 是 另外 一 种 有 监督 的 学 习 算 法 。 在 利用 决策 树 算法 之 前 ， 需 
要 先 把 训练 集 转换 成 图 7-4a 中 的 形式 ， 其 中 特征 还 是 % ~ se。 因为 我 们 的 目的 是 用 学 习 得 


第 7 章 数据 匹配 131 


到 的 决策 树 来 判断 元 组 对 是 否 匹 配 ， 所 以 标签 的 值 依然 为 “是 “/” 否 ”( 在 线性 加 权 规 
则 和 逻辑 回归 规则 中 ， 最 终 得 到 的 是 一 个 数值 型 的 相似 度 分 数 ) 。 然 后 ， 在 训练 集 上 执行 
标准 的 决策 树 算法 (如 常见 的 C4. 5 算法 ) ， 就 可 以 学 习 得 到 一 个 决策 树 〈 见 图 7-4b) 。 从 
该 决策 树 可 以 看 出 ， 对 于 一 个 元 组 对 (a, 5)， 如 果 姓 名 和 电话 号 码 都 比较 一 致 ， 那 么 
(a, b) 就 是 匹配 的 ; 或 者 姓名 比较 一 致 ， 而 电话 号 码 不 太一 致 ， 但 是 城市 和 州 比较 一 致 ， 
在 这 种 情况 下 ，(a, b) 也 是 匹配 的 。 该 决策 树 中 没有 使 用 特征 s (a, b) Fils, (a, b), 
因为 基于 已 有 的 训练 集 ， 学 习 算法 认为 这 些 特 征 与 判断 结果 无 关 。 


s,(x,y)> 0.8 


a. 


fa 
no s,(x,y)> 0.8 
匹配 姓名 ”匹配 电话 。 匹配 城市 。 。 匹配 州 ”将 城市 与 区 域 代码 比较 ag ga 
Sg | ail 


s.(x,y)> 0.8 yes 


l 
fe] ss(Xy)> 0.8 


yz <[s,(a,,b,), s,(a,,b,), s,(a,,b,), s,(8;,6,), s,(a,,b,), se(albj)]， yes> 
Va = <[s,(a,,b,), S,(a,,b,), ss(a2,b,), ,(2,,b,), .(a,,b,), se(a2,b2)], yes> fa 
v, = <[s,(a3,b,), S,(a,,b,), sa(aa,ba), Sala zba), ss(aybs), se(a3,b3)], no> 

n 


a) 为 决策 树 学 习 算 法 准备 的 训练 数据 b) 决策 树 
图 7-4 <<< 


如 上 所 述 ， 与 基于 规则 的 匹配 方法 相 比 ， 有 监督 的 学 习 方法 有 两 个 主要 的 优点 。 第 
一 ， 在 基于 规则 的 匹配 方法 中 ， 必 须 人 为 确定 某 个 特征 是 否 对 匹配 过 程 有 用 ， 既 费时 又 比 
较 困 难 ， 并 且 只 能 考虑 比较 有 限 的 特征 集合 。 相 反 ， 基 于 学 习 的 方法 可 以 从 大 量 的 特征 集 
合 中 自动 学 习 哪 些 特征 是 有 用 的 。 第 二 ， 基 于 学 习 的 方法 可 以 产生 比较 复杂 的 规则 ， 这 些 
复杂 规则 靠 人 工 确定 是 比较 困难 的 〈 如 由 决策 树 或 者 SVM 算法 产生 的 规则 ) 。 

然而 ， 基 于 学 习 的 方法 往往 需要 大 量 的 训练 数据 ， 一 般 很 难得 到 。 下 一 节 将 介绍 用 无 
监督 的 方法 来 解决 这 一 问题 。 


7.4 RMA 


本 节 主 要 介绍 聚 类 技术 在 匹配 问题 中 的 应 用 。 很 多 常用 的 聚 类 方法 已 经 在 数据 匹配 中 
得 到 了 应 用 ， 主 要 包括 凝聚 层次 聚 类 法 (AHC) 、k-means、 图 论 聚 类 法 。 本 节 重 点 介绍 凝 
聚 层 次 聚 类 法 ， 该 方法 既 简 单 又 常用 。 我 们 首先 介绍 AHC 的 工作 流程 ， 然 后 基于 AHC 来 
介绍 利用 聚 类 方法 进行 数据 匹配 的 核心 思想 。 

给 定 一 个 元 组 集合 D，AHC 的 目标 是 将 D 划分 成 若干 个 类 的 集合 ， 使 得 同一 个 类 中 
的 所 有 元 组 都 代表 同一 个 实体 ， 不 同类 中 的 元 组 代表 不 同 的 实体 。 首 先 ，AHC 将 每 一 个 
元 组 作为 一 个 类 ， 然 后 迭代 地 将 两 个 最 相似 的 类 进行 合并 ， 利 用 相似 度 函 数 来 确定 相似 
度 。 当 类 的 个 数 达到 预期 数量 或 者 两 个 最 相似 的 类 之 间 的 相似 度 小 于 给 定 的 阔 值 时 ， 聚 类 
过 程 终 止 。 当 达到 终止 条 件 时 ，AHC 算法 的 输出 结果 是 一 个 类 的 集合 。 


例 7.3 我 们 通过 对 图 7-5a 中 的 6 个 元 组 x, ~ xs 进行 聚 类 来 介绍 AHC 的 流程 。 首 先 
定义 一 个 相似 度 函 数 。 例 如 ， 如 果 每 个 元 组 描述 的 是 一 个 人 ， 并 且 属 性 与 图 7-1a、b 中 的 
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一 样 ， 那么 我 们 可 以 用 式 (7-2) 中 的 线性 加 权 函 数 作为 相似 度 函 数 ， 形 式 如 下 : 
sim(%,y) = 0.3850me 2y) +0,3sppone (X,Y) +0. so (a x) +0. 3Sa (xy) 

在 第 一 轮 迭 代 中 ， 首 先 计 算 所 有 元 组 对 的 相似 度 sim(x，y) ， 将 最 相似 的 两 个 元 组 进 
TAF, n 与 x, 合并 成 类 oo CAPER, Hx, Sx, 合并 成 类 c,， 在 第 三 轮 迭 代 
中 ,将 x He, 合并 成 类 c，。 最 后 得 到 三 个 类 ， 分 别 为 c, 、c3 和 xs (如 图 7-5a 所 示 )。 

此 时 ， 如 果 任 意 两 类 之 间 的 相似 度 都 不 大 于 阔 值 6， 则 聚 类 过 程 终 止 ， 并 返回 cu c 
和 xs。 聚 类 结果 表明 ，2 与 x, ORC, x, x, Sx, 中 的 任意 两 个 元 组 匹配 ， 而 xs 与 其 他 任 
何 元 组 都 不 匹配 。 图 7-5b 显示 了 自 底 向 上 的 合并 过 程 并 展示 了 AHC 算法 的 层次 特性 。 


ĉi C3 

ae: CG YE D * 
& C2 
Gs 


C3 


XX X3 Xs Xs Xe X% R Xi Xa Xs Xs 


图 7-5 族 聚 层次 聚 类 示例 <<< 


为 了 对 聚 类 方法 进行 更 加 详细 的 描述 ， 需 要 分 析 如 何 计算 两 个 类 之 间 的 相似 度 。 实 际 
应 用 中 ， 常 用 的 方法 有 如 下 几 种 。 
。 单 链接 : 两 个 类 e 和 4d 之 间 的 相似 度 等 于 c 和 d 中 所 有 元 组 对 的 相似 度 的 最 小 值 : 
s(c, d) = Min phn sp Y) o 
© 全 链接 : 两 个 类 c Ald 之 间 的 相似 度 等 于 c A d 中 所 有 元 组 对 的 相似 度 的 最 大 值 : 
s(c, d) = gam (tis Yo 
© 平均 链接 : s(c,d) = È sim(x;,y;)/n, n 是 类 c MEd 中 所 有 元 组 对 的 个 数 
(xiEc, yed) A 
。 权威 元 组 : 我 们 可 以 为 每 一 个 类 构造 一 个 权威 元 组 。 这 种 情况 下 ， 两 个 类 之 间 的 
相似 度 就 可 以 定义 为 两 个 类 的 权威 元 组 之 间 的 相似 度 。 权 威 元 组 可 以 由 类 中 元 组 
的 属性 值 构 造 。 例 如 ， 如 果 类 e 中 的 姓名 有 “MikeWilliams” 和 “M. J. Williams” , 
则 可 以 把 它们 进行 合并 ， 从 而 形成 权威 姓名 “MikeJ. Williams. ” 。 如 果 电 话 号 码 是 
“4252474893” 和 “2474893”， 则 可 以 选择 较 长 的 电话 号 码 “4252474893” 作 为 
权威 号 码 ， 其 他 的 权威 属性 以 此 类 推 。 
一 般 情况 下 ， 选 择 一 个 好 的 类 相似 度 方法 都 与 具体 的 应 用 相关 ， 并 且 还 要 仔细 考虑 应 
用 构建 者 的 意见 。 
在 介绍 其 他 方法 之 前 ， 需 要 强调 聚 类 方法 在 数据 匹配 问题 上 带 来 的 一 些 新 观点 : 
1) 把 元 组 匹配 问题 看 成 是 构建 实体 (类) 的 问题 ， 并 且 只 有 同一 个 类 中 的 元 组 才 相 
互 匹 配 。 
2) 过 程 是 迭代 的 : 在 每 一 次 迭代 中 ， 充 分 利用 已 知 的 知识 (在 前 几 次 迭代 的 基础 
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上 ) 去 构建 “好 ”的 实体 。 

3) 在 每 一 次 迭代 中 ， 把 每 一 类 中 的 所 有 元 组 合并 形成 “实体 概要 ” ,然后 利用 该 信 
息 与 其 他 元 组 进行 匹配 。 这 在 生成 权威 元 组 的 时 候 体现 得 更 为 清楚 ,权威 元 组 就 可 以 视 为 
“实体 概要 ”。 这 样 一 来 ， 聚 类 就 可 以 为 信息 合并 带 来 一 些 新 的 特征 ， 然 后 利用 这 些 合并 后 
的 信息 辅助 匹配 。 

我 们 会 看 到 在 其 他 方法 中 也 会 有 这 些 原则 。 


7.5 概率 匹配 


概率 方法 将 匹配 问题 建 模 成 一 个 变量 的 集合 ， 每 一 个 变量 对 应 一 个 概率 分 布 。 例 如 ， 
可 以 用 一 个 变量 来 表示 两 个 人 名 是 否 匹 配 ， 也 可 以 用 另外 一 个 变量 来 表示 两 个 元 组 是 否 匹 
配 。 这 些 方法 可 以 通过 对 变量 的 推理 进行 匹配 。 

概率 方法 的 主要 优点 是 提供 了 一 个 原则 性 框架 ， 可 以 方便 地 将 多 种 领域 知识 包含 进 
来 。 此 外 ， 这 些 方法 还 可 以 充分 利用 丰富 的 概率 表示 和 推理 技术 ， 这 些 技术 在 过 去 20 年 
中 在 人 工 智 能 和 数据 库 领 域 已 经 进行 了 深入 研究 。 最 后 ， 概 率 方法 还 为 比较 和 解释 其 他 匹 
配方 法 提供 了 一 个 参考 框架 。 

概率 方法 也 存在 一 些 不 足 之 处 。 最 大 的 不 足 就 是 与 非 概 率 方法 相 比 消耗 的 时 间 过 长 。 
男 外 一 个 缺点 是 概率 方法 产生 的 匹配 规则 一 般 比 较 难以 理解 和 维护 。 

目前 ， 大 多 数 概率 方法 都 采用 生成 模型 ， 生 成 模型 对 概率 分 布 进行 编码 ， 并 描述 如 何 
生成 适合 分 布 的 数据 。 我 们 将 重点 介绍 3 种 方法 ， 这 3 种 方法 采用 的 生成 模型 逐渐 复杂 。 
接 下 来 介绍 一 种 比较 简单 的 生成 模型 : 贝 叶 斯 网 络 。 然 后 用 贝 叶 斯 网 络 的 基本 思路 去 解释 
这 3 种 方法 。 


7.5.1 贝 叶 斯 网 络 


我 们 首先 介绍 贝 叶 斯 网 络 ， 贝 叶 斯 网 络 是 一 个 概率 推理 框架 ， 很 多 匹配 方法 都 基于 该 
框架 。 令 和 = {x!，…，%,| 是 一 个 变量 集合 ， 每 一 个 变量 用 来 对 应 用 域 中 的 一 个 兴趣 度量 
进行 建 模 ， 并 从 一 个 预先 给 定 的 集合 中 取 值 。 例如， 变量 Cloud 可 以 是 true 或 者 false， 变 
Æ Sprinkler 可 以 是 on 或 者 off。 我 们 只 考虑 具有 离散 值 的 变量 , 但 是 连续 变量 也 可 以 建 模 
( 见 7.7.2 节 )。 我 们 把 集合 中 所 有 变量 的 一 次 赋值 定义 为 一 个 状态 。 例 如 ， 给 定 变量 集 
合 X= |{Cloud，Sprinkler| ， 一 共有 4 个 状态 ， 其 中 
一 个 是 s = | Cloud =true, Sprinkler =on | 。 

设 $ 是 所 有 状态 的 集合 。 概 率 分 布 已 是 一 个 函 
数 ， 该 函数 用 来 为 集合 S 中 的 每 一 个 状态 s; 赋 一 个 
值 P(s;)e[0, 1], 并 且 2, Psi) = 1 。P(s;) 是 状 


AS si 的 概率 。 图 7-6 描述 了 Cloud 和 Sprinkler 的 状 
态 的 概率 分 布 (t 和 /分 别 是 true 和 false 的 缩写 ) 。 图 7-6 4 种 状态 的 概率 分 布 举例 

对 概率 模型 进行 推理 的 目的 是 回答 如 下 的 查询 : “4 =a，P(4 =a) 的 概率 是 多 少 ”? 
或 者 “在 已 知 B 值 为 5 时 ，4 =a 的 概率 P(4 =a1B=4b) 是 多 少 ?”4 和 B 是 变量 的 一 个 
子 集 ， 上 述 查 询 可 以 分 别 简 写 为 P(4) MPC |B). 

概率 论 可 以 为 这 些 查 询 赋 予 精确 的 语义 。 例 如 ， 直 接 把 图 7-6 中 表格 的 前 两 行 相 加 就 可 
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以 得 到 概率 P( Cloud =t) 的 值 0.6。P( Cloud =t | Sprinkler =off) 的 值 可 以 这 样 计算 : 先 计 算 
P(Cloud =t, Sprinkler = off) 的 值 ， 然 后 再 除 以 P( Sprinkler =off) 的 值 ， 最 后 得 到 0. 75。 

但 是 通过 枚 举 所 有 的 状态 来 确定 概率 分 布 往 往 是 不 可 行 的 ， 主 要 是 因为 可 能 状态 的 数 
量 会 随 着 变量 数量 的 增加 而 旦 指数 级 增长 。 实 际 应 用 中 所 涉及 的 变量 往往 成 千 上 万 ， 因 此 
无 法 枚 举 所 有 的 状态 。 贝 叶 斯 网 络 的 核心 思想 就 是 能 够 为 概率 分 布 提供 一 个 紧凑 表示 方 
法 。 接 下 来 介绍 如 何 利用 贝 叶 斯 网 络 进行 标识 和 推理 ， 以 及 如 何 从 训练 集中 进行 学 习 。 


BEF It SG IA KIR HEFL 

贝 叶 斯 网 络 是 一 个 有 向 无 环 图 ， 图 中 的 节点 代表 变量 ， 边 代表 变量 之 间 的 概率 依赖 。 
图 7-7a 描绘 了 一 个 具有 四 个 节点 (Cloud, Srinkler, Rain 和 WetGrass) 的 贝 叶 斯 网 络 。 给 
定 一 个 贝 叶 斯 网 络 G6， 如 果 从 节点 4 到 B 有 一 条 有 向 边 ， 则 称 4 是 B 的 父亲 ， 如 果 从 C 到 
B 有 一 条 有 问 的 路 径 ， 则 称 C 是 B 的 祖先 。 





a) 有 向 无 环 图 b) 条 件 概率 表 (CPT) 
图 7-7 贝 叶 斯 网 络 


节点 4 到 节点 B 的 边 也 可 以 理解 为 节点 B 依赖 于 节点 4。 例 如 ，WetGrass 依赖 于 
Sprinkler 的 值 是 否 是 on 以 及 是 否 在 下 雨 。 图 6 包含 了 如 下 断言 : 图 6 中 的 每 个 节点 ， 在 
其 父亲 的 值 给 定 的 情况 下 ， 与 它 的 非 后 裔 节点 是 概率 独立 的 。 该 断言 是 利用 贝 叶 斯 网 络 对 
概率 分 布 进行 紧凑 表示 的 关键 所 在 。 例 如 ， 图 7-7a 中 ， 在 Sprinkler 和 Rain 的 值 已 知 的 情 
况 下 ，WetGrass 的 值 是 独立 于 Cloud 的 ,在 Cloud 的 值 已 知 的 情况 下 ，Sprinkler 的 值 是 独 
立 于 Rain 的 。 基 于 上 述 的 独立 性 断言 ， 我 们 可 以 通过 “局 部 概率 乘积 ”来 计算 图 6 表示 
的 概率 分 布 。 


$7.4 ”如 图 7-7a R, & C. S, RA W AJRA Cloud, Sprinkler, Rain 和 
WetGrass, P(C, S, R, W) 表示 一 个 状态 的 概率 ， 如 P(C=t, S=on, R=f, W=t), Æ 
于 概率 计算 规则 ， 我 们 可 以 得 到 : 

P(C,S,R,W) = P(C) - P(S|C) - P(R|S,C) - P(W|R,S,C) 
由 于 在 父亲 节点 的 值 给 定 的 条 件 下 ， 每 一 个 节点 都 独立 于 其 非 后 裔 节点 ， 因 此 可 以 把 
P(R|S, C) fHBAP(R|C), PCW|R, S, C) 简写 为 P(WW|R，S)。 因 此 可 以 得 到 : 
P(C,S,R,W) = P(C) + P(S|C) « P(R|C) - P(W|R,S) 
这 样 为 了 计算 PCC, S, R, W), RA ARAGA 4 个 局 部 分 布 P(C) P(S|C), P(R|C) 
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AIP(W|R, S) 即 可 。 图 7-7b 给 出 局 部 分 布 的 一 个 例子 : P(C =t) =0.3, P(S=on|C= 


H 二 02, <<< 


一 般 来 说 ， 局 部 分 布 用 来 确定 一 个 节点 在 父亲 节点 已 知情 况 下 的 条 件 概率 ， 称 为 条 件 
概率 表 〈(CPT) ， 每 一 个 节点 对 应 一 个 CPT。 在 确定 一 个 概率 分 布 表 时 ， 只 需要 确定 CPT 
中 一 半 的 概率 ， 因 为 另 一 半 概 率 可 以 通过 推导 得 到 。 例 如 ， 为 了 计算 Cloud 的 CPT， 我 们 
只 需要 确定 P(C =t) ， 然 后 可 以 推导 出 P(C=/) =1-P(C=t) 的 值 。 

如 上 所 述 ， 给 定 一 个 图 和 对 应 的 CPT 的 集合 ,一 个 贝 叶 斯 网 络 就 可 以 完整 、 紧 凑 地 描 
述 一 个 概率 分 布 。 例 如 ， 图 7-7a、b 中 的 贝 叶 斯 网 络 只 用 9 个 概率 值 就 可 以 确定 所 有 的 
CPT; 而 如 果 穷 举 所 有 的 状态 ， 则 使 用 2 =16 个 状态 。 一 般 情 况 下 ， 贝 叶 斯 网 络 能 够 极 大 
地 节省 空间 。 

贝 叶 斯 网 络 推理 的 目的 就 是 计算 变量 的 概率 分 布 ， 即 ，P(4) 或 者 P(4 1B)。 一般 来 
说 ， 精 确 推理 是 一 个 NP-hard 问题 ， 最 坏 情 况 下 所 花费 的 时 间 随 贝 叶 斯 网 络 中 变量 的 数量 
呈 指 数 级 增加 。 数 据 匹 配方 法 有 三 种 方式 来 解决 这 一 问题 。 第 一 ， 在 对 贝 叶 斯 网 络 的 结构 
进行 一 些 限制 的 情况 下 ， 推 理 的 代价 会 比较 小 ， 有 一 些 多 项 式 算法 或 者 闭合 等 式 能 够 返回 
精确 的 结果 。 第 二 ， 数 据 匹 配 算法 可 以 使 用 一 些 针对 贝 叶 斯 网 络 的 近似 推理 算法 。 第 三 ， 
还 可 以 针对 某 些 特定 的 场景 ， 设 计 一 些 近似 算法 。 我 们 将 在 7.5.2 ~7.5.4 节 介 绍 这 些 推 
理 方 法 ， 并 介绍 三 种 概率 匹配 方法 。 


FARMA 

为 了 使 用 贝 叶 斯 网 络 ， 现 有 的 数据 匹配 方法 一 般 都 需要 由 领域 专家 来 构造 一 个 有 向 无 
环 图 ( 见 图 7-7a) ， 然 后 从 训练 数据 中 学 习 相 应 的 条 件 概率 表 CPT ( 见 图 7-7b)。 训 练 数 
据 包 括 我 们 观察 到 的 状态 的 集合 。 例 如 ， 假 设 周一 我 们 观察 到 是 多 云 并 且 下 雨 ， 洒 水 器 是 
关 的 ， 草 地 是 湿 的 ,那么 元 组 d, = (Cloud =ż, Sprinkler = off, Rain =t, WetGrass =t) 就 代 
表 了 一 个 观察 到 的 状态 。 假 设 我 们 在 周二 得 到 d, = (Cloud =t, Sprinkler = off, Rain = 
WetGrass =f) ， 在 周三 得 到 d, = (Cloud =f, Sprinkler=on, Rain =f, WetGrass =t), JER}, 
di, d, Al d, 就 构成 了 一 个 小 的 训练 数据 ， 基 于 这 些 训练 数据 我 们 就 可 以 学 习 得 到 图 7-7a 
中 对 应 的 条 件 概率 表 CPT。 实 际 应 用 中 ， 训 练 集合 往往 包含 成 千 上 万 个 这 样 的 训练 样本 。 


无 缺失 值 的 学 习 


我 们 首先 介绍 训练 数据 无 缺失 值 的 情况 ， 并 以 图 7-8 中 例子 来 介绍 学 习 过 程 。 给 定 
贝 叶 斯 网 络 (LA 7-8a) 和 训练 数据 ( 见 图 7-8b) ， 我 们 希望 学 习 条 件 概 率 表 CPT (W 
图 7-8c)。 其 中 di =(1, 0) 表示 4 =1 和 B=0。 只 需要 学 习 出 P(4=1), P(B=1|14=1) 
和 P(B=114=0)， 其 他 概率 可 以 通过 推导 得 到 。 

设 9 是 需要 学 习 的 概率 ,在 没有 其 他 已 知 条 件 的 情况 下 ， 需 要 找到 一 个 概率 9* ， 使 
得 训练 数据 D 出 现 的 概率 最 大 。 

0*= arg maxP( D | 8) 

通过 对 D 中 的 训练 数据 进行 简单 计数 可 以 得 到 6 * 。 例 如 ， 想 要 计算 P(A =1)， 可 以 先 计 

算 训练 数据 中 4 =1 的 样本 个 数 ， 然 后 除 以 总 的 样本 个 数 ， 可 以 得 到 P(A =1) =0.75。P(B = 
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114 =1) 的 值 可 以 用 B=1 和 4=1 的 样本 个 数 除 以 4 =1 的 样本 个 数 得 到 。 通 过 上 述 的 计 


数 过 程 ， 就 可 以 得 到 图 7-8d 中 的 条 件 概 率 表 CPT, 
要 学 习 的 CPT 从 训练 数据 中 学 习 CPT 


(A) 训练 数据 D 





d, = (1,0) 
d, = (1,0) 
(B) da = (1,1) 
d, = (0,1) 
a) b) 


图 7-8 使 用 无 缺失 值 的 训练 数据 学 习 CPT 的 例子 

比较 复杂 的 情况 是 对 于 某 些 状态 ,没有 足够 的 训练 数据 。 例 如 ， 假 设 训练 数据 D 只 包 
含 3 个 样本 di ~d;。 此 时 就 无 法 计算 P(B=1 14=0) ， 因 为 4=0 的 样本 数 是 0， 而 我 们 不 
能 除 以 0。 

为 了 解决 这 一 问题 ， 可 以 采取 一 种 叫做 概率 平滑 的 方法 。 常 用 的 平滑 方法 是 概率 的 mm 
估计 (m-estimate)， 定 义 如 下 。 假 设 有 两 个 变量 XX 和 了 Y， 需 要 计算 包含 XY 和 了 的 一 个 概率 
的 mm 估计 ， 即 P(Y=1|1X=0)。 假设 X=0 的 样本 个 数 是 x，Y=1 AX =0 的 样本 个 数 是 
y, RIH (y+ mp)/(x +m) RE (y/x) 作为 概率 的 估计 ， 其 中 p 是 事先 知道 的 概率 
P(Y=1|X=0) 的 估计 值 ，m 是 一 个 常量 。 在 没有 其 他 任何 信息 的 情况 下 ， 可 以 通过 一 
个 均匀 分 布 来 确定 p 的 值 。 例 如 ， 如 果 Y 了 有 两 个 可 能 的 值 ， 则 p 可 以 取 0.5。 常 数 m 可 以 
认为 是 用 mm 个 虚拟 样本 (x =0) 对 x 个 实际 样本 (X=0) 进行 扩充 ， 在 m 个 虚拟 样本 中 ， 
Y 为 1 的 比例 为 p。 

需要 说 明 的 是 ， 如 果 要 使 用 m 估计 方法 ， 那 么 在 计算 所 有 概率 的 时 候 都 要 使 用 该 方法 。 仍 
以 上 面 的 包括 3 个 样本 d, ~d, 的 训练 数据 为 例 , 假设 m=1, p=0.5, 那么 P(B=1|4=1) = 
(1+1%0.5)/(3 +1) =0.375, P(B=1|A=0) =(04+1*0.5)/(0 +1) =0.5, 


有 缺失 值 的 学 习 

训练 集合 中 可 能 包含 缺失 值 。 例 如 ， 样 本 d= (Cloud =?，Sprinkler = off, Rain = ?， 
WetGrass =t) 中 缺少 Cloud 和 Rain 的 值 。 可 能 由 于 我 们 没有 观察 到 这 些 变量 而 导致 变量 值 
的 缺失 (如 晚上 睡 着 了 ， 没 有 观察 到 是 否 下 雨 )。 还 有 可 能 是 因为 有 些 变 量 本 身 就 是 无 法 
观测 的 。 例 如 ， 假 设 我 们 是 喜欢 在 没有 月 亮 的 夜晚 到 屋外 去 探险 的 人 ， 那 么 可 以 观测 到 是 
否 下 雨 、 酒 水 器 是 否 开 着 、 草 是 否 是 湿 的 ,但 是 无 法 判断 天 空 是 否 有 云 。 不 管 什 么 原因 ， 
缺失 值 使 得 学 习 过 程 更 加 麻烦 。 

下 面 我 们 介绍 如 何在 有 缺失 值 的 情况 下 进行 学 习 ( 见 图 7-9a、b)。 贝 叶 斯 网 络 图 与 
图 7-8a 中 的 一 样 ， 但 是 训练 数据 集合 D=(d,, d,, d) 有 一 些 缺 失 值 。 特 别 是， 变量 4 的 
值 在 3 个 样本 中 全 部 缺失 。 
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训练 数据 D EM 算法 
d1=(?, 0) 1. 初 始 化 9， 初 始 值 为 09， 设 n=0 

do=(?, 0) 2. (期 望 ) 利用 0" 估计 训练 数据 D 中 的 缺失 值 ， 结 果 表 示 成 D” 
d3=(?, 1) 3.〈 最 大 化 ) 通过 对 Zr" 进行 计数 来 计算 gm 


4. WEP (D6) 没有 任何 增加 ， 则 返回 9"， 否 则 ， 循 环 执行 
步骤 2~3， 直 到 满足 收敛 条 件 
a) b) c) 


图 7-9 使 用 有 缺失 值 的 训练 数据 学 习 CPT 


在 有 缺失 值 的 情况 下 ， 不 能 像 前 面 的 方法 一 样 通过 对 训练 数据 进行 计数 来 获得 条 件 概 
率 表 ， 相 反 需 要 用 期 望 最 大 化 算法 (EM) 来 计算 条 件 概 率 表 。 该 算法 的 基本 思想 是 ， 假 
设 有 两 个 未 知 量 : 1) 0, 需要 学 习 的 CPT 中 的 概率 值 ; 2) RAD 中 缺失 的 值 。EM 算法 
迭代 地 对 两 个 未 知 量 进行 估计 ， 直 到 达到 收敛 条 件 ， 算 法 结束 。 

具体 来 讲 ， 首 先 把 9 初始 化 为 09 (图 7-9c 中 的 步骤 1)。 然 后 利用 0 和 输入 图 G 来 估 
计 训 练 数据 D 中 的 缺失 值 。 缺 失 值 可 以 基于 由 9 和 图 G 确定 的 贝 叶 斯 网 络 ， 计 算 一 些 条 件 
概率 来 得 到 (步骤 2)。 

iD 是 第 二 步 得 到 的 新 的 训练 数据 〈 没 有 缺失 数据 ) 。 此 时 可 以 通过 对 D 进行 计数 
来 重新 估计 9 (步骤 3)。 设 得 到 的 9 是 9 。 循 环 执行 步骤 2 ~3， 直 到 满足 收敛 条 件 ， 如 
P(D"|8") 和 P(D"* 10) 的 差 的 绝对 值 小 于 预先 给 定 的 阔 值 = (步骤 4)。 这 里 
P(D" | 6") =T1,P(d| 6"), d 是 训练 集 D" 中 的 任意 一 个 样本 ，P(d 10") 是 4 对 应 的 状态 
的 概率 ， 此 时 的 贝 叶 斯 网 络 是 由 G 和 9" 确定 的 。 

例 7.5 图 7-10 描述 了 EM 算法 是 如 何 作用 于 图 7-9a、b 中 的 例子 的 。 首 先 初始 化 一 
些 概率 : P(A=1) =0.5, P(B=1|A=1) =0.6, P(B=1|A=0) =0.5， 然 后 基于 这 些 概 
率 补充 CPT 中 的 其 他 概率 。 图 7-10a 表示 得 到 的 CET， 记 作 O°. 





un] 
Si a [PAT D04 ond 
Boas d3= beatae i B=1] 
o [os los! 

ô b) 


7-10 将 EM 算法 应 用 到 图 7-9a、b 的 例子 中 


然后 ， 用 O° 和 图 7-9a 中 的 图 来 估计 训练 数据 中 的 缺失 值 。 考 虑 图 7-9b 中 的 元 组 d, = 
(2, 0) 的 情况 。 这 里 变量 4 的 值 是 缺失 的 。 估 计 这 个 缺失 的 值 实际 上 也 就 是 估计 
P(A=1|B=0) 和 P(A4=01|1B=0) 的 值 。 这 两 个 概率 的 估计 刚好 是 贝 叶 斯 网 络 中 常见 的 
推导 运算 ， 可 以 直接 通过 概率 法 则 计算 得 到 。 我 们 有 : 
P(A =1|B=0) = P(B =0|A =1)P(A =1)/P(B = 0) (7-4) 
其 中 
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1 
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P(B =0) =P(B=0|A=1)P(A=1)+P(B=0|A=0)P(A=0) (7-5) 
把 O° 中 相应 的 概率 代入 式 (7-4) 和 式 (7-5) 中 ， 可 以 得 到 P(4=118=0) =0.44, A 
JE P(A =0 | B=0) =0.56。 估 计 出 所 有 的 缺失 值 以 后 就 可 以 得 到 新 的 训练 数据 D (IL 
图 7-10b) . D” 中 的 每 个 样本 都 描述 了 一 个 关于 变量 A 的 概率 分 布 。 

接 下 来 ， 通 过 对 D 进行 计数 估计 9 。 计 数 过 程 需要 考虑 训练 数据 的 概率 特性 。 例 如 ， 
想 要 估计 P(A =1) ， 我 们 需要 计算 4 =1 的 样本 的 个 数 。d, 中 4 =1 的 比例 是 0.44， 中 
FE 0.44, ds 中 是 0.56， 因 此 P(A=1) = (0.44 +0. 44 +0.56)/3 =0.47。 同 理 ， 可 以 计算 
P(B=1|A=1) =P(B=1, A=1)/P(A=1). d PB=1, A=1 的 比例 是 0.18, 已 经 知道 
P(4=1) =0.47, 所 以 P(B=1|14=1) =0.18/0.47 =0.38。 图 7-10c 表示 9 。 接 下 来 ， 
利用 9 估计 DD 中 的 缺失 值 ， 从 而 得 到 D' ， 以 此 类 推 。 <<< 


如 上 所 述 ，EM 算法 需要 找到 , 使 P(D19) 最 大 化 的 9， 这 和 无 缺失 值 情况 下 的 计数 
方法 是 一 样 的。 然而 有 时 可 能 找 不 到 最 优 的 9* ， 因 为 大 多 数 情 况 下 都 是 收敛 到 局 部 最 优 。 
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生成 模型 可 以 描述 全 概率 分 布 ， 并 且 可 以 确定 如 何 生 成 满足 这 些 概 率 分 布 的 数据 。 贝 
叶 斯 网 络 是 这 类 模型 的 一 种 典型 示例 。 以 图 7-7a、b 中 的 贝 叶 斯 网 络 为 例 ， 该 网 络 描述 了 
如 何 产 生 一 个 新 的 状态 : 首先 根据 图 7-7b 的 条 件 概率 表 CPT 中 P(Cloud) 为 变量 Cloud 选 
择 一 个 值 。 假 设 选择 Cloud =t1， 接 下 来 ,根据 P( Spinkler | Cloud =) 为 变量 Sprinkler 选择 
一 个 值 ， 根 据 概率 P( Rain | Cloud =t) 为 变量 Rain 选择 一 个 值 ， 假 设 Srinkler =on，Rain =f, 
最 后 根据 概率 P( WetGrass | Sprinkler =on，Rain =f) 来 为 变量 WetGrass 选择 一 个 值 。 

弄 清楚 数据 是 如 何 产 生 的 可 以 指导 我 们 构建 合适 的 贝 叶 斯 网 络 ， 也 可 以 发 现 哪 些 领 域 
知识 可 以 比较 容易 地 融入 该 网 络 结构 中 ， 还 可 以 便于 用 户 了 解 该 网 络 。 

接 下 来 ,我们 主要 介绍 用 于 数据 匹配 的 3 种 概率 方法 ， 这 3 种 方法 使 生成 模型 越 来 越 
复杂 。 首 先 介绍 一 种 相对 比较 简单 的 贝 叶 斯 网 络 ， 该 方法 中 的 特征 只 与 匹配 结果 有 关 ， 特 
征 之 间 没 有 关联 关系 。 其 次 ,考虑 特征 之 间 的 关联 关系 。 最 后 介绍 如 何 对 肉 套 在 文档 中 的 
元 组 进行 匹配 ， 以 及 如 何 构 建 一 个 新 的 模型 来 刻画 这 个 特性 。 


7. 5.2 基于 朴素 贝 叶 斯 的 数据 匹配 


首先 介绍 一 种 基于 贝 叶 斯 网 络 的 比较 简单 的 数据 匹配 方法 。 可 以 定义 一 个 变量 M, H 
来 表示 两 个 元 组 All b 是 否 匹 配 ， 从 而 把 数据 匹配 问题 形式 化 为 概率 推理 问题 ， 目 标 是 计 
F P(M |a, 5)。 如 果 P(M=t|1a, b)>P(M=fla, b), Wa Fib WE, BWR LH, 

假设 P(M |a, b) 只 依赖 于 特征 集合 Si, 0s S,, BARER a, b 为 输入 参数 ， 
并 且 返 回 一 个 离散 的 值 。 如 果 每 一 个 元 组 描述 的 是 一 个 人 的 信息 ， 则 样本 特征 包括 两 个 人 
的 姓 是 否 匹 配 ， 两 个 社会 保障 号 码 的 编辑 距离 。P(M |a, b) 可 以 记 作 : P(M|S,，…， 
She) a HH S, Æ S (a, b) 的 简写 。 

接 下 来 ， 基 于 贝 叶 斯 法 则 可 以 得 到 : 

P(M | SS ) = P(S S, | M)P(M)/P(S,,+*+,S,) (7-6) 


假设 给 定 M 的 情况 下 ， 特 征 S,, +, S, 相互 独立 ， 则 PCS S, M) = TPs, |M) 。 
I (7-6) 右边 的 分 母 可 以 写成 : 
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P(S 83,) = P(S yS, |M = t)P(M = t) + P(S, S, |M =f)P(M =f) (1-7) 
因此 ， 从 上 述 分 析 可 知 ， 要 想 计算 P(M | 5S,，…，5,)， 只 需要 知道 P(S,|M), ，…， 
P(S, | M) 和 P(M)。 
图 7-11a 中 的 贝 叶 斯 网 络 表示 了 我 们 上 面 所 描述 的 模型 。 该 图 利用 变量 M, Sia Sa 和 
5; 对 感 兴趣 的 量 进行 建 模 (为 简单 起 见 ， 只 用 了 3 个 特征 变量 S ~ 5;)。 关 于 数据 匹配 ， 
我 们 所 做 的 简化 假设 就 是 在 给 定 M 的 情况 下 ，5S, ~S; 相互 独立 。 该 假设 一 般 称 为 朴素 贝 
叶 斯 假设 。 朴 素 贝 叶 斯 假设 在 实际 中 往往 是 不 成 立 的 ， 但 是 在 具体 的 应 用 中 还 相当 有 效 
的 。 为 了 计算 P(M | ac，5) ， 我 们 需要 学 习 P(S |M), =, P(S, |M) 以 及 P(M) ， 而 这 
些 概 率 恰 好 就 构成 了 贝 叶 斯 网 络 的 条 件 概 率 表 CPT. 
(a4, by, yes) <t, si(a1, b4), S2(84, b4), S3(84, b1)> 


(M) 
(a2, b2, yes) <t, s4(a2, b2), S2(82, b2), S3(a2, b2)> 
(S1) (Se) (Ss) (aa, b3, no) <f, s4(a3, b3), S2(a3, b3), S3(83, b3)> 
a) b) c) 
图 7-11 有 训练 数据 时 ， 进 行 数 据 匹配 的 朴素 贝 叶 斯 方法 的 条 件 概率 表 的 学 习 。 
a) 是 贝 叶 斯 网 络 ， 在 生成 训练 数据 时 ，b) 中 的 “yes” 和 “no” 在 
c) 中 已 经 转换 成 了 “t A P 

如 果 我 们 有 训练 数据 ， 如 图 7-11b 中 的 3 个 元 组 , 元 组 (a, bi, yes) Hava, Mb, 
匹配 ， 那 么 基于 这 些 训 练 数据 学 习 CPT 就 非常 简单 。 我 们 可 以 把 每 一 个 元 组 转换 成 一 个 特征 
向 量 。 例 如 ， 可 以 把 (a, bi, yes) 转换 成 向 量 (rt, s(a, b), s(a, b), s(a, b)), 该 
向 量 代 表 了 一 个 状态 ， 相 当 于 把 1，s,(a, b), s(a, b) 和 ss;(a, b) 分 别 赋 给 节点 M, 
Sis S, 和 53。 当 把 元 组 ( 见 图 7-11b) 转换 成 特征 向 量 ( 见 图 7-11c) 后 ， 就 可 以 针对 这 
些 特征 向 量 ， 使 用 7. 5. 1 节 中 描述 的 无 缺失 值 的 学 习 方法 去 学 习 CPT, 

学 习 得 到 CPT 以 后 ， 就 可 以 用 贝 叶 斯 网 络 去 匹配 新 的 元 组 对 。 给 定 一 个 元 组 对 (a,, 
ba), TARAR (7-6) 和 式 (7-7) 来 计算 P(M=1\a,, b) MP(M=fla,, 6). 4 
R P(M=t\a,, b,)>P(M=f\a,, b4), W) a, F b, 匹配 否则 不 匹配 。 需 要 说 明 的 是 ， 
式 (7-6) 中 右边 的 分 母 P(S,，…，5,) 在 M=: 和 M= 太 两 种 情况 下 是 一 样 的 ， 所 以 只 需 
要 计算 分 子 就 可 以 了 。 

在 没有 训练 数据 的 情况 下 学 习 CPT 就 变 得 比较 复杂 。 此 时 ， 可 以 把 待 匹配 的 元 组 转换 
成 有 缺失 值 的 训练 数据 ， 然 后 利用 7. 5. 1 节 中 描述 的 EM 算法 。 假 设 我 们 需要 对 图 7-12a 
中 的 3 个 元 组 对 进行 匹配 。 首 先 把 它们 转化 成 3 个 特征 向 量 ( 见 图 7-12b) 。 每 个 特征 向 量 
对 贝 叶 斯 网 络 中 的 4 个 变量 WM、S$、3S$ AS; 进行 一 次 赋值 。 但 是 ， 由 于 不 知道 变量 M 的 
值 ， 所 以 该 值 在 所 有 的 特征 向 量 中 都 是 缺失 的 。 因 此 ,使 用 EM 算法 学 习 CPT， 学 习 得 到 
CPT 以 后 ， 就 可 以 进行 数据 匹配 了 。 


(a4, 4) <?, s1(a4, ba), S2(a4, ba), sa(aa, ba)> 

(as, bs) <?, S1(a5, bs), s2(as, bs), sa(as, bs)> 

(ag, be) <?, s1(ae, bg), s2(ae, Dg), sa(ae, be)> 
a) b) 


图 7-12 无 训练 数据 时 ， 进 行 数据 匹配 的 朴素 贝 叶 斯 方法 的 条 件 概 率 
表 的 学 习 。a) 中 的 元 组 转换 成 有 缺失 值 的 训练 集 
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7.5.3 特征 相关 性 


前 面 所 描述 的 方法 是 朴素 的 ， 因 为 它 假设 在 给 定 变 量 M 的 情况 下 ,特征 s, ，…，s, 之 
间 没 有 相关 性 。 虽 然 朴素 贝 叶 斯 假设 在 很 多 领域 中 都 非常 有 效 ， 但 是 在 有 些 领 域 中 ， 需 要 
考虑 特征 之 间 的 相关 性 才能 进行 准确 的 匹配 。 

图 7-13a 中 的 贝 叶 斯 网 络 通过 在 特征 节点 之 间 增 加 有 向 边 来 对 这 种 相关 性 进行 建 模 。 
假设 节点 % 表示 社会 保障 号 码 是 否 匹 配 ， 节 点 5 表示 姓 是 否 匹 配 。 这 种 情况 下 ， 我 们 可 
能 从 s, Bs, 创建 一 条 边 ， 因 为 如 果 两 个 社会 保障 号 码 匹配 ， 那 么 两 个 人 的 姓 也 很 有 可 能 
匹配 。 

这 种 增加 边 的 方法 所 带 来 的 问题 是 : 使 CPT 中 概率 的 数量 迅速 增加 。 例 如 ， 假 设 每 个 
节点 平均 有 4 个 父亲 和 d 个 不 同 的 取 值 ， 那 么 CPT 中 并 个 节点 的 概率 数 是 0(nd?)。 相 反 ， 
对 于 图 7-11a 中 的 朴素 贝 叶 斯 网 络 来 说 ， 只 需要 2dn 个 概率 〈 每 一 个 节点 有 2d 个 概率 ) 。 
CPT 中 的 概率 越 多 ， 所 需要 的 训练 数据 就 越 多 ， 耗 费 的 时 间 也 就 越 长 。 

图 7-13b 中 的 贝 叶 斯 网 络 减少 了 CPT 的 大 小 ， 但 是 也 损失 了 一 些 表达 能 力 。 假 设 每 个 
元 组 有 上 个 属性 ,我 们 也 只 考虑 有 个 特征 S,，…，5S;， 每 个 特征 仅 以 一 个 属性 的 值 作为 输 
A, 并 输出 一 个 离散 的 值 。 例 如 ， 如 果 一 个 元 组 只 包含 两 个 属性 ，name 和 addre, ALAR 
们 就 只 考虑 两 个 特征 : 第 一 个 特征 用 来 比较 两 个 name， 第 二 个 特征 用 来 比较 两 个 address, 
而 我 们 前 面 所 考虑 的 特征 可 能 涉及 不 同 的 属性 ， 如 邮编 和 区 域 编码 。 

yo aan aie 
置 一 个 二 元 变量 Xo X 用 来 表示 在 给 


定 的 元 组 对 匹配 的 情况 下 ， 相 应 的 属 

HERM, BN, WE X 是 与 社 O as 
会 保障 号 相关 的 变量 ， 那 么 X 就 表 

示 在 元 组 匹配 的 情况 下 社会 保障 号 是 

否 匹 配 。 在 CPT 中 , P(X, =t|M =t) R 

的 值 一 般 会 比较 高 。 再 假设 S, 表示 (S) © © (Ss) 
的 是 两 个 社会 保障 号 之 间 的 编辑 距 
离 ( 即 0 ~1 之 间 的 一 个 值 ) BBA 
P(X, =0|M=t) 和 P(X =1|M=t) 
的 也 会 比较 高 ， 这 意味 着 如 果 两 个 社会 保障 号 匹配 ,那么 它们 之 间 的 编辑 距离 就 相对 比较 
小 (0 或 者 1)。 

最 后 一 步 是 仅 在 X, - X, 这 一 层 对 它们 之 间 的 相关 性 建 模 (假设 在 ~X, 已 知 的 条 件 
F, S-S, 相互 独立 ) 。 同 样 ， 假 设 忆 是 与 社会 保障 号 相关 的 变量 , 恩 是 与 姓 相关 的 变 
量 。 那 么 我 们 可 以 在 X, 5X, 之 间 增加 一 条 边 ， 该 边 表示 如 果 社 会 保障 号 匹配 ， 则 两 个 人 
的 姓 也 很 可 能 匹配 。 

图 7-13b 中 的 贝 叶 斯 网 络 需要 相当 少 的 概率 。 假 设 每 一 个 节点 平均 有 4 个 父亲 ,那么 
节点 X —X, 的 概率 总 数 是 0(h2') (这 些 节 点 是 二 元 变量 ， 只 有 两 种 取 值 ; 和 /) 。 如 果 每 
一 个 特征 节点 含有 d 个 值 ， 则 这 些 特 征 节点 一 共 需 要 2kd 个 概率 。 那 么 总 的 概率 数 是 


图 7-13 考虑 特征 关联 性 的 贝 叶 斯 网 络 
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O(k2" +2kd), ， 远 小 于 图 7-13a 中 的 概率 数 。 实 现 这 一 目的 关键 在 于 将 依赖 关系 从 具有 
较 多 取 值 的 节点 层 转移 到 具有 较 少 取 值 的 节点 层 。 当 然 我 们 也 要 为 此 付出 一 定 的 代价 ， 
图 7-13b 的 表达 能 力 减 弱 了 ， 因 为 不 能 对 任意 的 特征 进行 建 模 。 

从 上 述 的 讨论 中 我 们 可 以 得 到 的 最 主要 的 经 验 就 是 贝 叶 斯 网 络 的 构建 是 一 门 “艺术 ”， 
需要 考虑 很 多 方面 的 因素 ， 包 括 有 多 少 领域 知识 可 以 利用 、 学 习 到 的 网 络 的 准确 性 ， 以 及 
时 间 效 率 。 下 一 节 将 介绍 一 个 更 复杂 的 例子 。 


7.5.4 文本 中 的 实体 指 代 匹 配 


本 节 将 介绍 一 种 需要 更 复杂 的 生成 模型 的 数据 匹配 案例 。 前 面 主要 介绍 的 是 元 组 匹配 
问题 ， 本 节 将 介绍 出 现在 文档 中 的 实体 指 代 匹配 问题 (如 “Michael Jordan”, “M. Jordan” 
和 “Mike I. Jordan” ) 。 


问题 定义 


假设 D 是 一 个 文档 集合 ，M 是 D 中 实体 指 代 的 集合 ， 每 一 个 指 代 m 是 一 个 出 现在 文 
档 中 的 字符 串 ， 并 且 指 向 现实 中 的 一 个 实体 。 这 些 指 代 可 以 利用 信息 抽取 技术 从 文档 中 提 
取出 来 。 我 们 的 目标 是 对 于 M 中 的 任意 两 个 指 代 m 和 m， 判 断 它们 是 否 指 向 同一 个 实 
体 。 例 如 ， 图 7-14a 中 的 3 个 文档 di ~d;, 一 共有 6 MER (包含 下 划 线 的 字符 串 )。 例 
如 ， 我 们 想 知道 d, 中 的 “Michael Jordan” 55 d, HÉJ “Mike”, d, 中 的 “Michael J. Jordan” 
是 匹配 的 ， 而 与 d; 中 的 “Prof. M. IL Jordan” 不 匹配 。 


Michael Jordan played 实体 集合 
d4 | for the Chicago Bulls. 
Mike was ... 
为 a 选择 的 实体 


z| Michael J. Jordan was 
a former basketball 
player. He was born ... 





Michael Jeffrey Jordan Chicago Bulls 实体 表示 


Prof. M. |. Jordan 
ds | (UC-Berkeley) presented 


a paper on... 


从 表示 中 产生 的 指 代 





a) 3 个 文本 文档 的 集合 b) 文档 指 代 的 生成 模型 
图 7-14 3 个 文档 和 6 个 指 代 


生成 模型 


为 了 设计 匹配 算法 ， 我 们 构建 了 一 个 生成 模型 ， 用 来 描述 文本 中 的 实体 指 代 是 如 何 产 
生 的 。 假 设 有 一 个 实体 集合 E， 如 Michael Jordan the bastketball player, Michael Jordan the 
researcher 和 the Chicago Bulls basketball team。 按 照 如 下 步骤 生成 文档 d 中 的 指 代 : 


[193 ] 
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1) 选择 一 个 天 , 天 表示 出 现在 文档 d 中 的 实体 的 个 数 。K 服从 分 布 P(K) 。 

2) 根据 分 布 P(E)， 从 实体 集合 E 中 选择 K 个 实体 。 

3) 对 于 每 个 选 定 的 实体 e， 根 据 分 布 P(r |e) 选择 一 个 字符 串 r，r 称 为 e 的 表示 。 

4) 根据 分 布 PCL) 选择 一 个 上 ，L 表示 实体 e 的 指 代 的 个 数 。 然 后 根据 分 布 P(m |r), H 
r RAM L MER m, +, mo 

5) 最 后 把 这 些 指 代 mm +, m, 分 散 到 文档 d 中 。 

图 7-14b 展示 了 文档 d 中 指 代 的 生成 过 程 。 首 先 ， 选 择 两 个 实体 e 和 es ， 然 后 确定 
两 个 实体 的 标识 “Michael Jeffrey Jordan” 和 “Chicago Bulls”。 直 觉 上 ， 每 一 个 标识 可 以 是 
每 一 个 实体 的 全 名 。 其 次 ， 通 过 对 标识 进行 扰动 来 生成 指 代 。 例 如 ， 从 “Michael Jeffrey 
Jordan” 中 去 掉 中 间 名 可 以 得 到 指 代 “Michael Jordan”， 去 掉 中 间 名 和 姓 ， 再 把 名 转换 成 
昵称， 可 以 得 到 指 代 “Mike”。 最 后 把 这 些 指 代 分 散 到 d, 中 。 

如 上 所 述 ， 生 成 模型 的 参数 包括 : 1) 概率 分 布 P(K) WPC), 分 别 用 来 描述 如 何 
选择 实体 数 和 每 个 实体 的 指 代 数 ; 2) 实体 集合 和 概率 分 布 P(E); 3) 概率 分 布 
P(r1e) 和 P(m|r)， 分 别 用 来 描述 如 何 选 择 标 识 和 指 代 。 

在 介绍 如 何 学 习 生 成 模型 之 前 ， 首 先 介 绍 如 何 将 生成 模型 应 用 于 数据 匹配 算法 中 。 


利用 生成 模型 进行 指 代 匹配 

”给 定 一 个 文档 d 以 及 指 代 集 合 W,， 利 用 生成 模型 来 匹配 M,。 直 观 上 来 看 ， 这 就 意味 
着 要 找 出 一 个 实体 集合 Es * 、d 中 的 标识 集合 R,* ， 并 把 Wu 中 的 指 代 赋 给 Es A R * 。 
如 果 两 个 指 代 赋 给 了 同一 个 实体 ， 则 这 两 个 指 代 是 匹配 的 。 从 形式 上 ，E, * AR, * 需要 


(E,* ,R,* ) = arg maxP( By By | M,) 


= arg maxP(E,,R,,M.) 
= arg maxP(E,)P(R, | E,)P(M, | R4) (7-8) 


式 (7-8) 假设 在 R 给 定 的 情况 下 ，M 和 条 件 独 立 ， 并且 忽 略 了 实体 数 和 指 代数 的 概 
率 ， 因 为 这 两 个 概率 在 计算 最 大 值 的 时 候 可 以 省 略 。 在 式 (7-8) P, #8 E, * AR, * 的 
所 有 组 合 是 不 可 行 的 ， 因 此 我 们 需要 寻求 一 种 近似 算法 。 

第 一 步 ， 通 过 直接 对 M, 进行 顺序 聚 类 得 到 R * 。 初 始 化 时 选择 M, 中 最 长 的 指 代 作 
为 第 一 个 标识 。 对 于 M, 中 的 每 一 个 指 代 m， 以 及 已 经 创建 的 每 一 个 标识 r， 计算 
P(m |r)。 我 们 使 用 一 个 固定 的 阔 值 来 判断 是 否 把 m 添加 到 已 有 的 组 中 ， 使 得 P(m |r) 
最 大 化 ,或 者 为 m 创建 一 个 新 组 。 每 一 组 中 通常 都 是 选择 最 长 的 指 代为 组 的 标识 。 

第 二 步 ， 找 到 标识 集合 Rs * Wi, FER, * 的 每 一 个 标识 7 赋 给 一 个 实体 e *= arg max。P(e) 
P(r|e)。 通 过 指 代 到 标识 的 映射 以 及 标识 到 实体 的 映射 ， 我 们 可 以 为 每 一 个 单独 的 文档 
构建 一 个 指 代 到 实体 的 映射 。 

按照 同样 的 方法 ， 我 们 可 以 用 指 代 M, =, M, 对 新 的 文档 由 ，…，d， 进行 匹配 。 特 
别 是 ， 一 旦 建立 了 指 代 到 标识 和 标识 到 实体 的 映射 以 后 ， 当 且 仅 当 两 个 指 代 (来 自 同一 文 
档 或 不 同文 档 ) 指向 同一 个 实体 ， 它 们 才 匹 配 。 
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FTA NORE 
接 下 来 ， 介 绍 如何 学 习 生 成 模型 。 和 前 面 的 思路 一 样 ， 我 们 把 有 训练 数据 和 无 训练 数 
据 分 开 讨 论 。 


情况 1: 有 训练 数据 


为 了 便于 描述 , 假设 P(K) 和 PCL) 都 是 在 某 一 个 小 的 合理 的 数值 区 间 内 的 均匀 分 
布 。 例 如 ， 假 设 每 一 个 文档 会 涉及 1 ~8 SEA, ABA PK) 就 可 以 定义 为 区 间 [1，8] 内 
的 均匀 分 布 。 此 时 ， 只 需要 学 习 集合 已 和 分 布 P(E) 、P(r|e) 和 P(m|7)。 

给 定 训练 数据 D 为 文档 集合 ， 并 有 如 下 假设 。 首 先 ， 对 于 目标 实体 类 型 ， 我 们 已 经 识 
别 出 了 所 有 的 指 代 (如 果 想 匹配 人 名 和 机 构 名 ， 就 需要 从 D 中 识别 出 所 有 的 人 和 机 构 ) 。 
其 次 ,把 M 划分 成 了 n 个 类 ,确保 每 个 类 中 的 指 代 指 向 同一 个 实体 。 

PAE F PCE): 给 定 训练 数据 ， 可 以 为 每 一 个 类 创建 一 个 实体 : e, e en HE 
标示 该 实体 集合 。 假 设 这 些 实体 相互 独立 地 分 布 到 文档 中 。P(E) 可 以 通过 计算 P(e;) 来 
学 习 , iell, n], P(e) 可 以 用 e 所 在 类 中 指 代 的 个 数 除 以 M 中 指 代 的 总 数 。E 的 任何 
一 个 子 集 F 的 概率 是 PCP) = II P(e). 


学 习 P(m|r): 假设 每 一 个 指 代 m 和 每 一 个 标识 7 都 与 一 个 属性 集合  ，…，a, 相 
关 。 假设 一 个 指 代 包含 属性 title、firstName、middleName 和 lastName。 这 样 ， 指 代 
“Michael Jeffrey Jordan” 就 可 以 转换 成 一 个 元 组 (title = null, firstName = Michael，mid- 
dleName = Jeffrey, lastName = Jordan) 。 

假设 m= (a =v, =) ;T= (a, =v, =, a, =0,)o XF, P (mir) 就 等 
FM v, 到 vw 的 转移 概率 的 乘积 。 


P(m|r) = [] PCa) = v, | a(r) = v) 


Hp P(a,(m) =v, | a,(r) =0;) 是 7 的 第 个 属性 为 v 的 条 件 下 ，m KE k NEEE v, 的 
概率 。 

我 们 不 直接 计算 P(a,(m) =v, | a(r) = 办) ， 而 是 分 成 4 种 扰动 类 型 ， 然 后 计算 每 一 
种 扰动 类 型 的 概率 。 第 个 属性 的 扰动 类 型 是 1 的 概率 ， 记 为 : P(k, 1)。 

4 种 扰动 类 型 分 别 是 copy, missing, typical 和 atypical。 如 果 v, = 从， 则 扰动 类 型 是 
copy; 如 果 = null， 则 类 型 是 missing; WIR v, 是 通过 对 v, 进行 扰动 得 到 的 ， 则 类 型 是 
typical; 否则 是 atypical 类 型 。 例 如 ， 如 果 属 性 是 firstrName， 那 么 把 firstName 缩写 成 第 一 
个 字符 就 属于 typical 类 型 ， 缩 写成 前 3 个 字符 就 不 是 typical 类 型 。 

为 了 计算 每 一 种 扰动 的 概率 ， 对 于 常见 的 属性 我 们 首先 手工 收集 typical 和 atypical 类 
型 的 扰动 。 例 如 ， 关 于 属性 title, firstName, middleName, lastName 和 organizationName， 
可 以 从 多 个 数据 源 (美国 的 人 口 普 查 数据 和 在 线 词 典 等 ) 中 收集 扰动 信息 。 对 于 其 他 属 
性 ， 如 age， 我 们 把 除 copy 或 者 missing 之 外 的 其 他 扰动 都 作为 atypical。 

给 定 4 种 扰动 类 型 ， 就 可 以 把 P(a,(m) =v, alr) =0,) BBM Pk, t), Bk 
性 的 扰动 类 型 是 1 的 概率 。 如 果 我 们 知道 标识 在 训练 数据 D 中 的 位 置 ， 就 很 容易 估计 
P(k, 1)。 考 虑 D 中 所 有 (r, m) 形式 的 对 ， 其 中 m 是 基于 r 产生 的 。 那 么 P(E，t) 就 等 
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Far) 到 mw(m) 的 类 型 属于 1 的 对 数 除 以 总 的 对 数 ( 对 于 训练 数据 中 没有 出 现 的 扰动 
类 型 可 以 采用 平滑 方法 ,与 7.5. 1 节 中 介绍 的 平滑 方法 类 似 ) 。 

因此 ， 只 要 知道 所 有 的 标识 ， 就 能 够 学 习 P(X，t) 。 然 而 训练 数据 D 中 并 没有 指定 这 
些 标识 ， 仅 仅 确定 了 指 代 和 类 。 为 了 解决 这 一 问题 ， 我 们 首先 确定 d 中 对 应 于 实体 e 的 所 
有 指 代 构 成 的 集合 ， 然 后 选择 指 代 集 合 中 最 长 的 指 代 作为 实体 e 的 标识 r。 该 启发 式 方法 
基于 这 样 的 假设 : 文档 4 中 的 标识 是 实体 e 的 全 名 (full name), ， 并 且 文 档 d 中 实体 e 的 所 
有 指 代 都 是 通过 全 名 的 扰动 得 到 的 。 

学 习 P(r|e) : 可 以 用 同样 的 方法 学 习 PCr |e) 。 但 是 还 要 知道 如 何 得 到 实体 的 属性 。 
同样 ， 在 一 个 实体 对 应 的 所 有 的 指 代 集 合 中 ， 可 以 选择 最 长 的 指 代 作 为 实体 e 的 全 名 ， 然 
后 对 全 名 做 进一步 的 处 理 得 到 属性 值 。 


情况 2: 无 训练 数据 


在 没有 训练 数据 的 情况 下 可 以 使 用 EM 算法 。 设 D 为 文档 集合 ，M 为 D 中 指 代 的 集 
fo FA EM 算法 对 M 进行 匹配 的 过 程 是 : 

1) 初始 化 : 为 D 中 的 每 一 个 文档 d RP CEG, Ra) (例如 ,将 d 中 的 每 一 
个 指 代 赋 给 集合 Rs 中 的 一 个 标识 ， 将 每 一 个 标识 赋 给 集合 Es 中 的 一 个 实体 )。 设 D" = 
[Ez Ras MaldeD}, 其 中 M, 是 文档 d 中指 代 的 集合 。 也 就 是 说 ， 集 合 D 就 是 这 样 的 
RED, D 中 每 一 个 文档 d 中 的 每 一 个 指 代 已 经 赋 给 了 一 个 标识 ， 并 且 每 一 个 标识 也 赋 给 
了 一 个 实体 。 

2) 最 大 化 : 计算 参数 o EI PODI 9) 最 大 化 。 这 属于 有 训练 数据 的 参数 学 习 ， 
因此 可 以 用 情况 1 中 描述 的 技术 来 计算 0”。 

3) WB: 对 于 集合 D 中 的 每 一 个 文档 d, 计算 CES, Ri") 使 得 P(Z |0) 最 
Kik, HÆF Dt =| (EP, RY, M,) |deD|。 实际 上 这 就 是 使 用 模型 进行 指 代 匹配 ， 
即 把 指 代 赋 给 标识 和 实体 。 

4) 收敛 : 如 果 P(D'1 Of) 没有 增加 ， 则 算法 终止 ; 否则 重复 2 ~3 步 。 

需要 说 明 的 是 ， 上 述 的 EM 算法 和 图 7-9c 中 描述 的 标准 EM 算法 是 有 区 别 的 ， 主 要 区 
别 在 于 在 第 3 步 ， 上 述 算法 是 对 每 一 个 文档 d 找到 最 可 能 的 E 和 R*"， 而 不 是 对 所 有 可 能 
fy E* 和 Re 找到 相应 的 概率 分 布 。 主 要 是 因为 所 有 实体 和 标识 的 集合 一 般 会 比较 大 ， 找 到 
这 些 集合 并 对 其 进行 排序 是 不 可 行 的 。 还 要 说 明 的 是 ， 当 算法 终止 时 ,返回 指 代 到 标识 和 
标识 到 实体 的 映射 。 因 此 这 就 解决 了 指 代 匹 配 问题 。 

最 后 ， 介 绍 初始 化 步骤 给 上 述 EM 算法 一 个 完整 的 描述 。 给 定 一 个 文档 4， 按 照 如 下 的 
方式 计算 E, MR o AG, 把 d 中 的 每 一 个 指 代 看 成 是 一 个 字符 串 ， 然 后 利用 TFVIDF 字符 串 
相似 度 度量 (参见 第 4 章 ) 把 指 代 聚 成 若干 个 组 。 接 着 在 每 一 个 组 中 选择 一 个 最 长 的 指 代 作 
为 标识 并 为 每 一 个 组 创建 一 个 实体 。 这 样 得 到 的 所 有 标识 和 实体 的 集合 就 分 别 是 Ry A Ego 


7.6 协同 匹配 


目前 为 止 ， 我 们 所 讨论 的 匹配 方法 产生 的 匹配 结果 都 是 独立 的 ， 即 任意 两 个 元 组 a 和 
b 是 否 匹 配 与 其 他 元 组 c 和 4d 是 否 匹配 无 关 。 然 而 ， 在 很 多 实际 应 用 中 ， 匹 配 结果 往往 是 
相互 关联 的 ， 考 虑 这 些 相 关 性 可 以 进一步 提高 匹配 的 准确 性 。 
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假设 我 们 想 对 图 7-15a 中 列 出 的 4 篇 论文 的 作者 进行 匹配 ， 首 先 可 以 从 中 抽取 出 作者 
名 字 并 创建 一 张 表 ， 表 中 的 每 一 个 元 组 包含 作者 的 first name、middle name 和 last name。 
我 们 可 以 用 前 面 所 讲 的 任何 一 种 方法 来 匹配 这 些 元 组 。 但 是 这 些 方法 并 没有 利用 到 作者 之 
间 的 合作 关系 ， 因 为 表 中 并 没有 体现 这 种 关系 。 


W. Wang, C. Chen, A. Ansari, A mouse immunity model 

W. Wang, A. Ansari, Evaluating immunity models 

L. Li, C. Chen, W. Wang, Measuring protein-bound fluxetine 
W. J. Wang, A. Ansari, Autoimmunity in biliary cirrhosis 


a) 包含 文章 作者 指 代 的 论文 信息 





b) 指 代 转 换 成 关系 表 


GEC chen 
Cari 
Gwwn 


c) 指 代 作 为 超 图 中 的 顶点 ， 超 边 代 表 合作 关系 
图 7-15 


以 图 7-15c 为 例 来 介绍 这 种 关系 对 于 匹配 有 哪些 好 处 。 图 7-15c 把 输入 数据 描绘 成 了 
一 个 超 图， 图 的 节点 表示 作者 ， 超 边 把 合作 者 连接 起 来 。 假 设 我 们 已 经 知道 节点 a: 
A. Ansari 和 as: A. Ansari 匹配 ,那么 这 会 增加 节点 a,: W. Wang FI a: W. Wang DE fe fy ay 
能 性 ， 因 为 它们 有 相同 的 姓名 并 且 与 同一 个 作者 具有 合作 关系 。 

使 用 这 些 额 外 信息 的 一 个 简单 方法 是 在 图 7-15b 的 表 中 增加 一 个 属性 coAuthors。 例 
如 ， 元 组 a, 的 coAuthors = | C. Chen, A. Ansari}; a, (第 二 篇 论文 的 作者 W. Wang) 的 
coAuthors = | A. Ansari} 。 我 们 可 以 使 用 已 有 的 匹配 方法 ， 但 是 要 把 属性 coAuthors 的 相似 度 
考虑 进去 。 可 以 用 Jaccard 相似 度 得 分 来 计算 这 些 属 性 之 间 的 相似 度 。 假 设 coAuthors(a,) = 
{C. Chen, A. Ansari} , coAuthors(a,) = |A. Ansari}, RITA: 

coAuthors( ai ) N coAuthors( a, 
JaccardSim sauton (41,44) = et U amet eis (7-9) 

然而 上 面 的 这 种 方法 可 能 会 产生 误导 。 假 设 作者 a;: A. Ansari 和 作者 as: A. Ansari 的 
名 字 相 同 ,但 是 两 个 作者 并 不 匹配 。 这 种 情况 下 ， 上 面 的 方法 仍然 会 认为 这 两 个 作者 是 匹 
配 的 ， 即 仍然 会 认为 coAuthors(a,) 中 的 字符 串 A. Ansari 和 coAuthors(a,) 中 的 字符 串 代 
表 相 同 的 作者 。 这 样 就 错误 地 增加 了 a: W. Wang 和 om: 到 Wang 之 间 的 相似 度 。 问 题 的 
根源 在 于 把 coAuthor 当成 了 一 个 特征 ， 利 用 字符 串 相等 与 否 作为 最 终 的 匹配 结果 。 

为 了 解决 这 个 问题 ， 我 们 可 以 以 并 行 的 方式 同时 执行 多 个 匹配 。 例 如 ， 先 匹配 
a,; A. Ansri 和 os: A. Ansri， 然 后 利用 该 信息 去 匹配 a: W. Wang Fl a: W. Wang。 当 然 也 
可 以 反 过 来 做 ， 先 匹配 ol : W. Wang 和 ww: W. Wang， 然 后 利用 该 信息 去 匹配 a: A. Ansri 和 
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as: A. Ansri。 这 样 一 来 ， 就 可 以 以 协同 的 方式 进行 匹配 。 充 分 利用 匹配 结果 之 间 的 相关 性 
来 提高 整体 匹配 的 准确 性 。 接 下 来 会 介绍 两 种 基于 上 述 思想 的 方法 ， 一 种 是 基于 聚 类 的 方 
法 ， 另 一 种 是 对 7. 5.4 节 中 介绍 的 概率 生成 模型 进行 扩展 ， 对 文档 中 的 实体 指 代 进 行 协同 
匹配 。 


7.6.1 基于 聚 类 的 协同 匹配 


假设 输入 是 一 个 图 ， 图 的 节点 表示 待 匹配 的 元 组 ， 节 点 之 间 的 边 代 表 元 组 之 间 的 关 
系 。 图 7-15c 展示 了 一 个 这 样 的 图 ,图 中 的 边 表 示 了 节点 之 间 的 合作 关系 。 为 了 便于 表 
示 ， 我 们 只 考虑 一 种 关系 ， 但 是 这 种 方法 可 以 扩展 到 其 他 多 种 类 型 的 关系 。 

我 们 采用 7. 4 节 中 描述 的 凝聚 层次 聚 类 (AHC) 算法 来 对 元 组 进行 匹配 ， 其 中 的 相似 
度 度 量 做 了 一 些 改 变 ， 需 要 把 元 组 之 间 的 相关 性 考虑 进去 。 假 设 4 和 B 表示 两 个 节点 集 
合 ， 则 相似 度 定义 为 : 

sim(A,B) = @ * SiMguitutes(A,B) + (1 — æ)sim eigos (A,B) 
其 中 a 是 事先 确定 的 系数 。simswaus(4，B) 基于 4 A B 中 节点 的 属性 来 计算 4 和 B 的 相 
似 度 。7. 4 节 介 绍 了 几 种 方法 ， 如 单 链接 、 全 链接 和 平均 链接 。 

SIMpcighton (4, B) 基于 4 FI B 的 邻居 来 计算 4 和 B 的 相似 度 。 假 设 输入 的 图 只 有 一 种 
KRA R, HELA 的 邻居 为 N(4),，N(4) 是 所 有 与 4 中 的 节点 具有 关系 RR 的 节点 所 在 聚 类 的 
ID 的 包 。 例 如 : 假设 聚 类 4 有 两 个 节点 a 和 a'’， 其 中 4 与 了 D 为 3 的 聚 类 中 的 节点 b 具 有 合 
ERZ, a5 ID H3 的 聚 类 中 的 节点 和 和 了 D 为 5 的 聚 类 中 的 节点 b" 具 有 合作 关系 。 那 么 
N(A) =13,，3，5|。 同 理 ， 可 以 定义 N(B)。 基 于 NM(4) 和 NM(B) 可 以 定义 simwiwypos (4，B): 


simii (4,8) = JaccardSim(N'(A) ,NB)) = AM ON) | (7-10) 


式 (7-10) 和 式 (7-9) 都 是 基于 邻居 定义 的 Jaccard 相似 度 度量 。 但 是 式 (7-9) 只 考虑 
了 邻居 中 包含 的 字符 串 信 息 ， 而 式 〈7-10) 则 考虑 了 邻居 的 匹配 结果 。 具 体 来 讲 ， 
式 (7-10) 是 基于 聚 类 ID 的 相似 度 ， 这 就 包含 了 匹配 结果 ， 因 为 具有 相同 聚 类 ID 的 元 组 
肯定 是 匹配 的 。 

TER, A (7-10) 中 的 Jaccard 度量 可 以 换 成 其 他 任何 适合 于 匹配 问题 的 度量 (如 
7.7.2 节 中 用 于 比较 邻居 的 其 他 度量 )。 上 面 定义 的 N(4) 只 包括 半径 1 以 内 的 邻居 。 其 
实 ， 我 们 可 以 定义 更 高 阶 的 邻居 ， 并 把 这 些 邻 居 考 虑 到 simeon B) 的 定义 中 。 

图 7-16 展示 了 AHC 算法 在 图 7-15c 中 的 输入 图 上 的 执行 过 程 。 最 初 可 以 把 每 一 个 节 
点 放 进 一 个 单独 的 聚 类 中 ， 这 样 就 产生 了 10 个 聚 类 c ~ co。 然 后 计算 聚 类 之 间 的 相似 度 ， 
并 把 两 个 最 相似 的 聚 类 进行 合并 ，c 和 cs 合并 成 cs。 接 着 继续 计算 聚 类 之 间 的 相似 度 。 
在 计算 聚 类 cs,: 的 相似 度 时 ， 需 要 计算 NM (cs) ，c.s 的 邻居 是 1c ，c ，c:} 。 然 后 再 把 最 
相似 的 两 个 聚 类 进行 合并 ， 以 此 类 推 。 图 7-16c 显示 了 最 后 的 聚 类 。 


7.6.2 协同 匹配 文档 中 的 实体 指 代 


在 7.5.4 节 中 ,我 们 介绍 了 文档 中 实体 指 代 的 匹配 问题 。 那 里 采取 的 方法 是 概率 生成 
模型 方法 。 给 定 一 个 文档 4， 该 模型 选择 一 个 实体 集合 ， 生 成 标识 和 指 代 ， 然 后 再 把 这 些 
指 代 分 散 到 文档 d 中 。 
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ce cy 
CA. Ansari) CL ti > CC. Chen) Cy Cio 
É AWD «, Ws. way ——G Ansar 






A. Ansari 
A. Ansari 








c) 


图 7-16 基于 聚 类 技术 对 作者 指 代 进 行 协同 匹配 的 例子 


前 面 所 用 模型 的 一 个 重要 的 局 限 性 在 于 独立 地 选择 d 中 的 实体 。 每 一 个 实体 都 符合 概 
率 分 布 P(e) ， 与 其 他 实体 无 关 。 这 种 独立 性 假设 在 实际 中 往往 是 不 成 立 的 。 例 如 ， 一 个 
文档 如 果 指 示 了 Michael Jordan 和 一 个 篮球 队 Chicago Bulls， 那 么 该 文档 指示 Los Angeles 
Lakers ( 男 一 支 球 队 ) 的 可 能 性 要 大 于 指示 Los Angeles Philharmonic 的 可 能 性 。 因 此 实体 
之 间 一 般 都 有 相关 性 ， 而 协同 的 方法 能 够 利用 这 些 相关 性 从 而 提高 匹配 的 准确 性 。 

接 下 来 介绍 一 种 协同 匹配 方法 ， 该 方法 对 7. 5.4 节 中 的 方法 进行 了 简单 扩展 。 基 本 思 
想 是 顺序 地 选择 实体 ， 选 择 实体 的 概率 依赖 于 目前 已 经 选 到 的 实体 。 具 体 来 说 ， 给 定 一 个 
文档 dg， 假设 已 经 选择 的 实体 是 Eo" = |e ，…，ei-i|。 那 么 选择 下 一 个 实体 的 概率 就 是 
P(e, | Bo  )。 接 下 来 考虑 该 方法 如 何 改变 7. 5. 4 节 中 的 方法 。 

首先 必须 学 习 该 模型 ， 先 考虑 有 训练 数据 的 情况 。 设 是 出 现在 训练 数据 中 的 所 有 实 
体 的 集合 。 之 前 是 对 于 任意 一 个 。eE， 学 习 P(e)， 而 现在 是 学 习 P(e|S), HF SCE, 
但 是 当 | 五 | 很 大 时 ， 需 要 计算 很 多 概率 ， 并 且 大 多 数 情况 下 我 们 都 没有 足够 的 训练 数据 。 

我 们 可 以 通过 把 P(e | S) 近似 为 max P(e | s) 来 减少 所 需要 计算 的 概率 的 数量 。 此 
时 仍然 需要 计算 | 五 | 个 概率 ， 实 际 中 该 数值 依然 比较 大 。 因 此 进一步 对 P(e | *) 进行 近 
W, WR e 和 s 共同 出 现在 训练 数据 的 任何 一 个 文档 中 ， 则 P(e |s) 为 1， 否 则 为 P(e)。 
现在 就 可 以 对 7.5.4 节 中 的 技术 方法 进行 修改 来 学 习 P(e |s) 。 

学 习 得 到 模型 以 后 ， 可 以 使 用 该 模型 对 指 代 进 行 匹 配 。 考 虑 一 个 新 文档 d 中 的 指 代 
M, 的 匹配 问题 。7. 5. 4 节 中 我 们 把 该 问题 看 成 是 找到 一 个 实体 集合 E, 和 标识 集合 R,， 使 
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44 P(E,)P(R,|E,)P(M,|R,) 最 大 化 (参见 7.8 节 )。 首 先 ， 通过 对 M, 进行 顺序 聚 类 ， 
直接 找到 R,， 然 后 找到 E, 使 得 P(E,)P(R, |E,) 最 大 化 。 因 为 实体 是 相互 独立 的 ， 所 
以 就 转化 为 寻找 实体 e， 对 于 任意 一 个 reR,， 使 得 P(e)P (rle) 最 大 化 。 

在 协同 匹配 中 ， 也 需要 找到 E, 使 得 P(E,)P(R, |E) 最 大 化 。 不幸 的 是 ，E, 中 的 实 
体 是 相关 的 。 和 前 面 不 一 样 ， 对 于 任意 一 个 re Rs, 使 P(e)P(r 1e) 最 大 化 ， 并 不 能 使 P 
(E,)P(R,|E,) 最 大 化 。 另 外 ， 对 E, 中 所 有 可 能 值 进行 枚 举 的 方法 是 不 可 行 的 。 因 此 ， 
可 以 近似 地 选择 一 个 比较 小 的 、 比 较 有 可 能 出 现 的 实体 的 集合 。 具 体 来 说 ， 就 是 对 于 任意 
一 个 re R,， 找 出 前 个 实体 ,使 得 P(e)P(r |e) 最 大 化 。 然 后 只 需要 考虑 这 些 top-k 列 
表 的 笛 卡 儿 积 中 出 现 的 实体 。 

当 没 有 训练 数据 时 ， 可 以 使 用 前 面 介绍 的 EM 算法 ,但 是 当 需 要 学 习 模 型 并 用 该 模型 
进行 指 代 匹 配 时 ， 就 可 以 使 用 前 面 提 到 的 改进 算法 。 


7.7 数据 匹配 的 可 扩展 性 
本 节 将 主要 介绍 如 何 对 我 们 已 经 介绍 的 数据 匹配 方法 进行 扩展 。 
7.7.1 规则 匹配 扩展 


对 基于 规则 的 匹配 方法 进行 扩展 的 关键 在 于 使 需要 匹配 的 元 组 对 数 最 小 并 使 每 一 对 元 
组 进行 匹配 所 消耗 的 时 间 最 小 。 我 们 介绍 几 种 方法 来 解决 第 一 个 挑战 。 
© 散 列 法 : 可 以 把 所 有 的 元 组 散 列 到 不 同 的 桶 中 ， 然 后 仅 对 同一 个 桶 中 的 元 组 进行 
匹配 。 如 果 散 列 函 数 把 元 组 分 布 到 很 大 数量 的 桶 中 ， 从 而 使 得 不 同 桶 中 的 元 组 不 
可 能 匹配 ， 那 么 这 种 情况 下 ， 散 列 方法 会 非常 有 效 。 例 如 ， 我 们 对 来 自 多 个 房 地 
产 网 站 的 房屋 列表 进行 匹配 ， 并 且 认 为 邮政 编码 是 正确 的 。 这 样 就 可 以 基于 邮编 
对 房屋 列表 进行 散 列 ， 然 后 对 同一 个 桶 中 的 房屋 进行 匹配 从 而 消除 重复 的 信息 。 
。 HERA: 可 以 基于 一 个 键 值 对 元 组 进行 排序 ， 然 后 对 有 序列 表 进 行 扫 描 ， 并 且 将 
每 一 个 元 组 和 它 前 面 的 (w -1) 个 元 组 进行 匹配 ，w 是 事先 指定 的 窗口 大 小 。 键 
值 必须 具有 较 强 的 区 分 度 ， 因 为 该 键 值 使 得 可 能 匹配 的 元 组 尽量 放 在 一 起 ， 而 不 
可 能 匹配 的 元 组 则 离 得 比较 远 。 键 值 可 以 是 社会 保障 号 、 学 号 、 姓 或 者 姓氏 的 
Soundex {A 〈 一 种 语音 算法 ) 。 与 散 列 方法 相 比 ， 排 序 法 采取 了 更 强 的 启发 式 规 
则 。 排 序 法 要 求 可 能 相似 的 元 组 之 间 必 须 在 大 小 为 w 的 窗口 内 。 当 启发 式 规 则 满 
足 时 ， 排 序 法 所 需要 进行 匹配 的 元 组 较 少 ， 所 以 排序 法 比 散 列 法 快 。 
索引 法 : 给 所 有 的 元 组 建立 索引 ， 使 得 对 于 给 定 的 任意 一 个 元 组 wc， 可 以 使 用 该 索 
引 快 速 地 获得 一 个 较 小 的 、 有 可 能 和 a 匹配 的 元 组 集合 。 例 如 ， 假 设 我 们 在 姓名 
属性 上 建 了 一 个 倒 排 索引 ， 给 定 一 个 元 组 a， 其 姓名 是 “Michael Jordan”， 可 以 通 
过 倒 排 索引 找到 所 有 包含 “Michael” 的 元 组 的 集合 ， 以 及 所 有 包含 “Jordan” 的 
元 组 的 集合 。 然 后 仅 将 a 和 这 两 个 集合 的 并 集中 的 元 组 进行 匹配 ， 因 为 如 果 两 个 
元 组 匹配 ， 那 么 它们 的 姓名 至 少 包含 一 个 共同 的 词 。 
© 分 组 法 : 可 以 采用 一 个 计算 代价 较 小 的 度量 方法 将 所 有 元 组 快速 地 分 成 若干 个 分 
组 。 然 后 再 使 用 另 一 种 计算 代价 比较 大 的 相似 度 度量 来 对 每 一 个 分 组 中 的 元 组 进 
行 匹配 。 例 如 ， 如 果 两 个 字符 串 的 长 度 至 少 相 差 3， 那 么 它们 的 编辑 距离 不 可 能 小 
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于 3。 因 此 可 以 通过 长 度 的 比较 快速 地 把 元 组 分 成 分 组 ， 然 后 对 每 一 个 分 组 中 的 元 
组 利用 代价 较 大 的 编辑 距离 度量 进行 匹配 。 男 一 个 例子 是 ， 可 以 用 TF/IDF 度量 来 
创建 分 组 ， 然 后 再 用 代价 较 大 的 相似 度 度量 对 每 一 个 分 组 中 的 元 组 进行 匹配 。 需 
要 说 明 的 是 ， 散 列 方法 中 的 桶 是 不 相交 的 ， 而 这 里 的 分 组 则 有 可 能 重合， 并 且 一 
ASHE 
。 代表 元 组 法 : 该 技术 主要 用 于 匹配 的 过 程 中 。 把 相互 匹配 的 元 组 放 在 相同 的 组 中 ， 
使 得 同一 个 组 中 的 元 组 相互 匹配 ， 不 同 组 中 的 元 组 不 匹配 。 接 着 可 以 为 每 一 组 创 
建 一 个 代表 ， 代 表 可 以 是 组 中 的 一 个 元 组 ， 也 可 以 通过 合并 组 中 的 元 组 得 到 。 对 
于 一 个 新 的 元 组 c， 只 需要 将 和 每 个 组 的 代表 进行 匹配 即 可 。 基 本 原理 是 ， 如 果 
a 和 代表 7 不 匹配 ， 则 a 不 可 能 与 包含 7 的 组 中 的 任何 一 个 元 组 匹配 。 该 技术 的 一 
个 变种 常用 于 Web 规模 的 数据 匹配 。 
。 集成 方法 : 前 面 所 描述 的 每 一 种 技术 采用 一 种 启发 式 方法 尽量 把 可 能 相似 的 候选 
元 组 对 放 在 一 起 ， 然 后 仅 对 这 些 元 组 对 进行 匹配 。 但 是 仅 使 用 一 种 启发 式 方法 可 
能 会 漏 掉 一 些 匹配 的 元 组 对 。 例 如 ， 如 果 仅 仅 基于 邮政 编码 对 房屋 进行 散 列 和 匹 
配 ， 可 能 会 丢失 一 些 实 际 上 是 匹配 的 元 组 ， 但 是 由 于 拼写 错误 ， 这 些 元 组 可 能 有 
不 同 的 邮政 编码 (如 53705 和 53750) 。 为 了 最 小 化 这 种 风险 ， 可 以 执行 多 次 匹 
配 ， 每 一 次 匹配 采取 一 个 不 同 的 启发 式 方 法 。 例 如 ， 除 了 基于 邮政 编码 对 房屋 列 
表 进 行 散 列 之 外 ， 还 可 以 基于 代理 进行 其 他 的 散 列 ， 因 为 一 个 房屋 一 般 都 是 由 一 
个 代理 负责 。 最 终 匹 配 的 元 组 集合 就 是 多 次 运行 结果 的 并 集 。 
基于 数据 集 的 特点 ， 上 述 技术 也 可 以 灵活 地 进行 组 合 。 例 如 ， 可 以 先 基于 邮政 编码 把 
房屋 散 列 到 不 同 的 桶 中 ， 然 后 对 每 一 个 桶 中 的 房屋 基于 街道 名 字 进 行 排序 ， 最 后 使 用 滑动 
窗口 进行 匹配 。 再 比如 ， 在 分 组 技术 中 使 用 代价 较 小 的 度量 时 ， 可 以 使 用 散 列 、 排 序 或 者 
索引 方法 来 加 速 匹 配 。 
一 且 使 待 匹配 的 元 组 对 的 数量 最 小 化 以 后 ， 还 需要 使 每 一 对 元 组 的 匹配 时 间 最 小 化 。 
如 果 使 用 基于 规则 的 方法 ， 例 如 先 对 单个 属性 进行 匹配 ， 然 后 再 对 各 个 属性 的 相似 度 进 行 
加 权 求 和 ， 那 么 可 以 使 用 缩短 匹配 过 程 的 方法 : 如 果 相 似 度 值 已 经 非常 小 ， 使 得 即使 后 面 
的 属性 非常 匹配 ， 这 些 元 组 也 不 可 能 匹配 ， 那 么 就 可 以 提前 结束 相似 度 的 计算 。 在 7.7.2 
节 中 将 会 介绍 其 他 优化 方法 。 


7.7.2 其 他 匹配 方法 的 扩展 


与 基于 规则 的 数据 匹配 方法 一 样 ， 学 习 方法 、 概 率 方法 和 聚 类 方法 同样 面临 扩展 性 的 
问题 ， 前 面 讨 论 的 扩展 性 技术 在 这 些 方法 中 也 可 以 应 用 。 协 同 匹 配 算法 把 上 面 几 种 匹配 方 
法 进行 了 综合 ， 因 此 前 面 的 扩展 性 技术 也 有 助 于 协同 匹配 算法 。 

但 是 ， 概 率 方法 还 有 其 他 的 挑战 。 特 别 是 ， 如 果 一 个 概率 模型 有 很 多 参数 ， 那 么 学 习 
这 些 参数 就 会 消耗 很 多 时 间 ， 并 且 需 要 大 量 的 训练 数据 才能 保证 学 习 的 准确 性 。 对 概率 匹 
配方 法 进行 扩展 的 一 个 途径 就 是 进行 独立 性 假设 ， 从 而 减少 参数 的 个 数 (7.5.2 ~7.5.4 
节 )。 当 然 ， 这 样 的 假设 会 影响 到 准确 性 ， 必 须根 据 实 际 情况 仔细 权衡 。 学 习 得 到 模型 以 
后 ， 利 用 该 模型 进行 推理 也 非常 耗 时 。 可 以 使 用 近似 推理 算法 或 者 简化 模型 使 概率 的 计算 
比较 简单 (如 7.5.2 节 中 的 朴素 贝 叶 斯 方法 ) 。 如 果 没 有 训练 数据 ， 还 需要 使 用 7.5.1 节 
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中 的 无 监督 方法 (例如 7.5.1 节 中 介绍 的 EM 算法 ) 进行 学 习 ， 这 种 方法 的 代价 也 比较 
大 。 为 了 解决 这 一 问题 ， 我 们 可 以 只 计算 最 大 似 然 概率 ， 而 不 计算 全 部 的 概率 ， 或 者 使 
EM 算法 的 初始 化 参数 尽 可 能 准确 ， 快 速 收敛 ， 从 而 缩短 EM 算法 的 时 间 。 

最 后 ， 大 规模 数据 匹配 还 经 常用 到 并 行 处 理 。 例 如 ， 可 以 把 元 组 散 列 到 不 同 的 桶 中 ， 
然后 并 行 地 对 各 个 桶 中 的 元 组 进行 匹配 。 再 比如 ， 在 Web 应 用 中 经 常会 对 一 些 分 类 的 实 
体 进行 匹配 (如 产品 分 类 或 者 Wikipedia 中 的 概念 分 类 ) ， 也 可 以 利用 并 行 的 方法 。 如 果 两 
个 元 组 属于 同一 个 类 别 ， 则 它们 就 是 匹配 的 。 分 类 一 般 是 以 半自动 的 方法 进行 维护 的 。 该 
方法 其 实 是 前 面 所 讲 的 代表 元 组 法 的 一 个 变形 。 


参考 文献 注释 


数据 匹配 有 很 长 的 研究 历史 ， 可 以 追溯 到 20 世纪 50 年 代 后 期 (关于 近期 的 书籍 、 研 
究 和 资料 见 [143 205, 248, 351, 353, 453, ，573 ] ) 1959 年 ，Newcomber 等 人 [458] 首 
先 提 出 了 记录 链接 (record linkage) 问题 ， 并 提出 了 许多 匹配 思想 : 用 声音 表示 (Soundex) 
的 方法 来 解决 拼写 错误 ， 利 用 分 块 (blocking) 的 方法 减少 元 组 的 比较 次 数 ， 用 多 个 分 块 
规则 来 增加 找到 的 匹配 元 组 对 的 个 数 ， 以 及 利用 独立 性 假设 来 估计 匹配 的 概率 。 这 大 概 是 
第 一 个 最 著名 的 数据 匹配 方面 的 研究 工作 。 

在 以 前 工作 的 基础 上 ，Fellfgi 和 Sunter[ 224 ] 在 1969 年 提出 了 一 个 比较 有 影响 力 的 记 
录 链 接 理 论 。 其 中 ， 该 理论 还 大 致 介绍 了 7.5.2 节 中 的 朴素 贝 叶 斯 匹配 模型 。 后 来 Wink- 
ler 等 人 [572，574，575 ] 对 该 模型 进行 了 很 大 的 扩展 ， 并 提出 使 用 EM 算法 来 进行 学 习 。 

早期 的 工作 大 都 来 自 于 统计 领域 。 从 20 世纪 80 年 代 开 始 ， 数 据 匹 配 问 题 也 吸引 了 数 
据 库 、 数 据 挖 掘 和 人 工 智能 领域 的 关注 。 最 初 的 方法 假设 在 不 同 数据 库 中 代表 同一 实体 的 
元 组 有 共同 的 键 (Multi- Base project by Dayal[ 165], ，[ 168 ] ) Pegasus 项 目 [19 ] 让 用 户 来 
制定 对 象 实例 之 间 的 等 价 性 〈 如 局 部 ID 到 全 局 ID 的 映射 表 ) Monge 和 Elkan[ 443 ] 提出 
使 用 Smith- Waterman 字符 串 相 似 度 的 一 种 变型 ， 将 整个 元 组 看 成 是 一 个 字符 串 进 行 匹配 。 
Dey 等 人 采用 线性 加 权 和 逻辑 回归 规则 对 元 组 进行 匹配 [175 ，176 ] Hernandez 和 Stolfo 
[300，301] 提 出 了 一 个 使 用 滑动 窗口 的 基于 规则 的 方法 对 元 组 进行 排序 和 匹配 。 还 有 一 些 
其 他 工作 使 用 人 工 规 则 进行 匹配 [ 119，390，484，564 ] Lawrence, Giles 和 Bollacker 
[249 ] 介 绍 了 使 用 人 工 规 则 对 很 著名 的 Citeseer 系统 中 的 引用 信息 进行 匹配 。 关 于 基于 规 
则 方法 的 更 详细 的 讨论 可 以 参考 Tejada, Knoblock 和 Minton[ 545 ] 。 

Tejada, Knoblock, Minton[ 545 ] 和 Sarawagi、Bhamidipaty[ 507 | 介绍 了 用 决策 树 、 朴 素 
贝 叶 斯 和 支持 向 量 机 (SVM) 等 方法 来 学 习 规 则 。Bilenko 和 Mooney[ 85, 86 ] 使 用 较 小 的 
人 工 标注 数据 集 来 学 习 每 一 个 属性 对 的 相似 度 ， 然 后 使 用 SVM 方法 学 习 如 何 对 这 些 相似 
度 进 行 合并 。 其 他 的 学 习 方 法 包括 [141，243 ，479] 。 

McCallum, Nigam 和 Unga[ 418 描述 了 一 种 用 于 数据 匹配 的 凝聚 层次 聚 类 方法 ， 并 介 
绍 了 如 何 利用 代价 较 小 的 度量 来 快速 地 将 元 组 分 成 多 个 类 。Cohen 和 Richman[ 144] 介绍 了 
如 何 将 一 般 的 聚 类 方法 适用 于 基于 训练 方法 的 数据 匹配 问题 。 

概率 方法 (可 以 追溯 到 Newcombe, Fellegi, Sunter 等 人 的 工作 ) 在 20 世纪 90 年 代 中 
期 又 重新 兴起 ， 并 且 非 常 流行 。Koller 和 Friedman [ 348 ] 对 图 概率 模型 进行 了 详细 阐述 ， 
包括 贝 叶 斯 网 络 、 连 续 值 变量 和 EM 算法 。7. 5. 2 ~7.5.3 节 中 介绍 的 两 种 使 用 贝 叶 斯 网 络 
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的 匹配 方法 来 自 于 Ravikumar 和 Cohen[494]( 也 介绍 了 连续 值 变量 的 情况 ) ，7. 5. 4 节 中 讲 
到 的 生成 模型 是 建立 在 Li, Morie 和 Roth[385，386 ] 的 工作 基础 之 上 的 。 生 成 模型 一 般 描 
述 全 概率 分 布 ， 这 种 模型 需要 学 习 大 量 的 概率 。 这 比较 困难 ， 并 且 一 般 都 需要 大 量 的 训练 
数据 。 因 此 ， 近 期 的 一 些 工作 [156，416，524 ] 开始 尝试 使 用 判别 模型 (如 条 件 随 机 场 
(CRF) [363], CRF 只 关心 对 匹配 有 用 的 概率 ) ， 直 接 从 数据 中 进行 学 习 。 

协同 方法 出 现在 2000 年 左右 。7. 6. 1 节 中 的 基于 规则 的 方法 来 源 于 Bhattacharya 和 
Getoor[ 82 ] 。 其 他 的 基于 规则 的 协同 方法 包括 Dong 和 Halevy[ 188 ] 的 Semex 系统 ，Anan- 
thakrishna, Chaudhuri 和 Ganti[ 31 ] 的 工作 以 及 Kalashnikov, Mehrotra 和 Chen[ 338 ] 的 工作 。 
基于 概率 的 协同 匹配 方法 包括 Pasula 等 人 [475] Li, Morie 和 Roth[ 385], McCallum 和 
Culotta[ 156], Singla 和 Domingos[ 524] ， 以 及 Bhattacharya 和 Getoor[ 81 ] 。 

还 有 一 些 其 他 工作 用 来 匹配 非 关 系 型 数据 。Semex 系统 [188 ] 用 于 匹配 个 人 信息 管理 
系统 中 的 实体 ， 其 中 实体 的 属性 经 常 缺失 。 [485，567] 对 由 XML 元 素描 述 的 实体 进行 匹 
配 ，Li、Morie 和 Roth[ 385，386] 对 文档 中 出 现 的 实体 进行 匹配 。 

经 常会 出 现 这 种 情况 ， 数 据 的 不 同 部 分 具有 不 同 的 异 构 性 ， 因 此 就 需要 不 同 的 匹配 方 
法 。 因 此 ， 一 个 匹配 流程 可 能 包含 多 个 匹配 器 ， 每 一 个 匹配 器 负责 数据 的 一 部 分 。 [170， 
520] 介 绍 了 该 方面 的 工作 。[182，546 ] 表 明 即 使 是 对 数据 的 同一 部 分 进行 匹配 也 可 以 使 用 
多 个 匹配 器 ， 每 一 个 匹配 器 使 用 不 同 的 启发 式 方法 。 

(126, 521 使 用 领域 知识 提高 匹配 的 准确 性 。[35，507] 使 用 主动 学 习 方法 进行 数据 
匹配 。Bhattacharya 和 Getoor[ 83 ] 讨论 了 实时 数据 匹配 问题 。 还 有 一 些 工作 讨论 了 在 数据 
清洗 、 数 据 匹 配 操作 以 及 数据 匹配 语言 中 的 数据 匹配 问题 [66，100，124，491，584] 。 
SERF[65, 66, 568) 项目 中 介绍 了 分 布 式 处 理 、 二 级 存储 、 消 极 信 息 、 演 化 匹配 规则 以 及 
“ 即 付 即 用 ”( pay-as-you-go) 匹配 等 方面 的 挑战 。 
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人 们 通常 会 认为 数据 集成 系统 中 的 查询 处 理 过 程 与 传统 DBMS 的 查询 处 理 流程 差别 不 
大 。 因 为 数据 集成 采用 的 查询 处 理 语言 (无论 是 SQL、datalog， 还 是 XQuery) 同样 源 于 标 
准 的 关系 (或 扩展 的 关系 ) 操作 。 而 查询 处 理 的 目标 也 是 找到 有 效 的 可 执行 的 查询 计划 。 
但 是 ， 在 数据 集成 环境 下 ， 查 询 通常 要 处 理 的 是 分 布 式 数据 。 尽 管 分 布 式 数据 的 查询 处 理 
在 分 布 和 联邦 数据 库 系统 中 已 经 有 一 些 研 究 ， 它 们 两 者 之 间 有 些 类 似 ， 但 数据 集成 需要 提 
供 新 的 查询 处 理 方法 以 应 对 一 系列 的 技术 挑战 。 


例 8.1 为 了 便于 问题 的 阐述 ， 我 们 首先 来 看 一 个 查询 实例 ， 这 个 实例 在 本 章 中 都 会 
用 到 。 该 查询 找 出 高 产 演员 摩根 弗 里 曼 出 演 的 广 受 好 评 的 电影 名 称 和 上 映 时 间 。 
LECT title, startTime 
M Movie M, Plays P, Reviews R 
WHERE M.title = P.movie AND M.title = R.movie AN 


P.1ocation= Ne, AND M.actor="! 


AND R.avgStars >= 3 <<< 


如 果 将 上 述 实 例 应 用 于 数据 集成 环境 ， 我 们 可 能 遇 到 一 系列 在 传统 数据 库 系 统 中 没有 
遇 到 的 挑战 。 


数据 源 的 查询 能 力 及 有 限 的 数据 统计 信息 


数据 库 管 理 系统 的 性 能 是 通过 准确 的 代价 估算 来 获得 的 ， 这 意味 着 DBMS 的 代价 估算 需要 
一 个 良好 的 WO 模型 和 处 理 速率 。 即 便 在 分 布 式 或 联邦 架构 下 ， 我 们 也 要 假设 查询 优化 器 可 以 
从 各 个 站 点 获得 用 于 代价 估计 的 有 效 统 计 信 息 。 然 而 ， 数 据 集成 环境 下 的 数据 源 可 能 不 都 是 
DBMS 数据 源 : 其 数据 源 类 型 可 能 包括 文本 或 HTML 源 ， 电 子 表格 或 XML 源 ， 也 可 能 是 基于 关 
系 、 层 次 或 XML 的 DBMS 源 。 它 们 中 的 某 些 数据 源 可 能 不 具备 数据 统计 和 评估 性 能 的 能 力 。 这 
导致 了 数据 集成 中 的 优化 器 要 在 没有 信息 的 情况 下 进行 估算 。 此 外 ， 有 些 数据 源 可 能 无 法 执行 
任意 完全 关系 代数 的 表达 式 ， 这 意味 着 (全 局 ) 查询 优化 器 不 能 自然 地 将 各 部 分 查询 处 理 分 配 
到 每 个 数据 源 。 从 例 8. DE, Movies 数据 源 通常 提供 对 XML 文件 的 直接 访问 〈 它 不 具备 查询 
处 理 能 力 ) ，Plays 数据 源 提供 基于 表单 格式 的 接口 ， 通 过 这 个 接口 能 够 执行 一 定 的 选择 操作 。 


输入 绑 定 约束 

有 些 数 据 源 需 要 提供 输入 数据 才能 返回 结果 数据 ， 如 3. 3 节 所 述 。 例 如 ，Plays 数据 
源 可 能 不 会 返回 所 有 的 电影 信息 ， 只 能 在 电影 和 导演 的 基础 上 提供 电影 的 放映 信息 。 而 
Reviews 数据 源 则 可 能 需要 电影 的 名 称 才能 返回 其 对 应 电影 的 相关 评论 。 
不 稳定 的 网 络 连接 和 数据 源 性 能 

Web 数据 源 在 网 络 访问 带宽 和 延迟 方面 通常 具有 很 大 的 可 变性 ， 这 使 得 我 们 很 难 预 测 
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访问 每 个 数据 源 的 代价 ， 更 谈 不 上 具备 处 理 故 障 的 能 力 。 另 外 ， 数 据 源 本 身 就 可 能 是 一 个 
被 其 他 应 用 和 请 求 共享 的 查询 处 理 器 ， 在 处 理 器 间 数 据 传输 时 其 执行 查询 处 理 并 返回 结果 
的 性 能 也 存在 可 变性 。 


快速 返回 初始 查询 结果 的 需求 


最 后 ， 许 多 信息 集成 应 用 程序 具有 互动 特点 ， 查 询 的 目的 是 获得 对 问题 的 一 个 优化 结 
果 ， 这 一 点 与 传统 DBMS 要 求 得 到 全 部 符合 条 件 的 查询 结果 不 同 。 

本 章 我 们 将 讨论 上 述 需求 对 数据 集成 查询 处 理 器 设计 的 影响 。 在 8. 1 节 ， 首 先 简要 回 
顾 传统 数据 库 查询 处 理 过 程 ，8. 2 节 讨 论 如 何 将 这 些 传统 技术 扩展 到 分 布 式 数 据 库 。 对 关 
系 查 询 处 理 引 擎 熟悉 的 读者 可 以 跳 过 这 两 节 内 容 。 

接 下 来 ,在 8.3 节 介 绍 数据 集成 查询 处 理 器 的 基本 架构 ， 该 框架 将 查询 优化 和 执行 以 
自 适 应 循环 〈adaptive loop) 方式 结合 在 一 起 。 循 环 过 程 由 几 部 分 组 成 ， 其 中 8. 4 节 介 绍 
初始 化 查询 计划 的 过 程 ，8. 5 节 描 述 查 询 执行 运行 时 系统 ， 这 一 系统 比 传统 的 引擎 更 加 复 
杂 。 自 适应 查询 处 理 中 的 运行 时 系统 将 在 8. 6 节 介 绍 ， 这 又 分 两 种 类 型 : 事件 驱动 自 适应 
(8.7 节 ) 和 性 能 驱动 自 适 应 (8.8 节 ) 。 


8.1 背景 : DBMS 查询 处 理 


首先 来 回顾 传统 数据 库 系统 中 查询 处 理 的 基本 流程 和 采用 的 技术 ， 这 对 我 们 深入 理解 
数据 集成 系统 中 的 查询 处 理 过 程 非常 有 用 。 

图 8-1 介绍 的 是 传统 DBMS 查询 处 理 右 的 架 框 图 。 通 常 SQL 中 的 查询 首先 被 解析 并 转 
换 成 抽象 语法 树 或 概念 表达 式 。 如 果 查 询 含 有 (虚拟 ) 视图 并 且 这 个 视图 定义 已 经 保存 在 
系统 目录 中 ， 那 么 它 将 被 展开 并 生成 一 个 逻辑 查询 计划 。 接 下 来 ， 将 展开 的 查询 传递 给 查 
询 优 化 器 ， 查 询 优 化 器 根据 系统 目录 中 的 统计 和 索引 信息 进行 代价 评估 以 生成 预期 性 能 较 
好 的 可 执行 的 查询 计划 。 最 后 ,将 查询 计划 传递 给 查询 执行 引擎， 查询 执行 引擎 对 索引 和 
数据 表 执 行 相关 操作 后 ， 最 终 返 回 查询 结果 。 

SOL 查询 结果 





索引 文件 数据 表 文 件 
图 8-1 传统 查询 处 理 器 的 构成 
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8.1.1 选择 查询 执行 计划 


传统 DBMS 中 的 查询 优化 过 程 是 基于 几 个 基本 的 假设 。1) 代价 是 可 以 预 估 的 : 可 以 
估计 加 载 表 或 索引 所 需要 的 磁盘 LO 数量 ， 并 且 这 些 访问 代价 是 固定 的 。 另 外 ，CPTU 的 性 
能 也 是 可 以 估算 的 。2) 数据 一 旦 从 磁盘 导入 内 存 ， 流 水 线 式 查询 处 理 是 CPU 密集 型 的 
(CPU-bound) : 查询 操作 符 的 内 部 实现 是 经 过 反复 调 优 的 紧密 循环 型 操作 ， 并 且 假 设 CPU 
在 执行 过 程 中 被 充分 利用 。 

下 面 以 本 章 开始 给 出 的 电影 查询 实例 来 介绍 查询 优化 的 过 程 。 首 先 ， 查 询 优 化 器 获取 查 
询 语句 并 展开 所 有 视图 ， 如 果 Movie, Plays 或 者 Reviews 是 视图 而 不 是 基本 关系 ， 则 先进 行 
视图 展开 处 理 ， 依 据 视 图 定义 进行 扩展 。 查 询 展 开 阶段 将 会 创建 一 个 逻辑 表达 式 来 表达 基于 


视图 输出 的 查询 。 然 后 ， 在 一 些 系统 中 查询 重 Tide gare 

EWP SS TO Be Hi Pes SBE tie EC AE A OE 

处 理 ， 目 的 是 生成 基于 基本 表 上 选择 - 投影 - 连 D<lutle=movie 

接 (Select-Project-Join, SPJ) 的 一 个 查询 表达 

式 ， 而 不 是 基于 另 一 个 SPJ 表达 式 输出 结果 上 a 


的 SPJ 表达 式 。 在 例 8. 1 中 ， 因 为 不 涉及 视图 ， 
所 以 逻辑 表达 式 是 一 个 SPJ 表达 式 ， 生 成 的 查 Sctor="Mongan Freeman” Slocation="New York” Reviews 
询 计划 如 图 8-2 所 示 。 该 SPJ 表达 式 通过 一 个 ” /7 


基于 代价 的 优化 器 找到 最 有 效 的 物理 操作 符 的 ”Movis Plays 
组 合 从 而 产生 表达 式 输出 结果 ， 基 于 代价 的 优 图 8-2 例 8.1 的 逻辑 查询 计划 
化 包含 以 下 两 个 主要 技术 。 

ee HR” 


查询 计划 枚 举 是 指 对 逻辑 计划 枚 举 出 与 之 等 价 的 物理 查询 计划 ， 并 估计 计划 执行 的 代 
价 。 几 乎 所 有 的 优化 器 都 采用 剪 枝 启 发 式 的 方法 去 除 查 询 性 不 佳 的 计划 以 减少 搜索 空间 ， 
然后 用 完全 枚 举 法 列举 剩余 的 查询 计划 。 
现代 数据 库 优化 器 仍然 保留 了 最 初 基于 代价 的 查询 优化 器 〈 如 system R) 中 用 到 的 剪 
枝 启 发 式 方法 : 搜索 左 线性 树 〈 其 每 个 节点 的 左 子 节点 必须 是 一 个 连接 关系 ) 定位 左 深度 
连接 ( 左 深度 连接 计划 中 每 一 连接 表达 式 只 出 现在 连接 操作 的 左 侧 ) ， 并 且 当 已 经 估计 了 
所 有 连接 谓词 代价 时 仅 考虑 笛 卡 儿 乘积 的 代价 。 在 剪 枝 处 理 的 搜索 空间 中 ， 优 化 器 将 会 枚 
举 出 所 有 潜在 的 连接 次 序 ， 也 包括 可 用 的 不 同 索 引 和 连接 算法 。 
优化 技术 是 20 世纪 70 年 代 的 一 个 重要 的 突破 : 我 们 可 以 看 到 ， 在 一 定 的 条 件 下 ， 查 
询 执行 代价 遵循 最 优 性 原理 。 总 的 来 说 ，3 路 连接 的 优化 连接 查询 计划 必须 充分 利用 2 路 
连接 的 最 优 连 接 查询 计划 。 由 此 导致 当 枚 举 n 路 连接 计划 时 ， 应 用 动态 规划 技术 : 
。 首先 〈 基 本 情况 ) ， 访 问 每 个 基本 表 所 用 的 各 种 方法 都 应 该 被 考虑 ， 选 择 和 投影 应 
该 尽 可 能 早 地 计算 。 

。 其 次 (递归 情况 )， 对 i 从 2 到 做 循环 操作 ， 将 最 优 的 ;- 1 路 连接 表达 式 与 剩 下 
的 第 i 个 表 进行 合并 完成 第 i 个 表 的 连接 。 对 于 每 次 类 似 的 合并 ， 将 最 优 的 i 路 物 
理 执 行 计划 记录 在 一 个 动态 规划 表 中 ， 其 中 选择 和 投影 操作 将 被 应 用 于 i 路 连接 。 
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。 所 有 的 连接 计算 之 后 ， 对 笛 卡 儿 乘 积 做 类 似 的 枚 举 操作 。 
。 最 后 ， 对 剩余 的 分 组 和 聚集 运算 (GROUP BY 子 句 ) 以 及 聚集 后 的 筛选 操作 
(HAVING 子 句 ) 加 以 处 理 。 

上 述 方法 的 一 个 变种 是 采用 自 项 向 下 的 搜索 策略 ， 它 采用 递归 备 忘 的 方法 搜索 查询 空 
间 。 这 里 先 从 一 个 完整 的 查询 表达 式 开 始 ， 考 虑 每 一 种 将 查询 表达 式 分 解 到 子 步骤 的 潜在 
方法 〈 也 就 是 发 现 可 以 做 连接 的 不 同 子 表 达 式 ) ， 对 于 每 种 这 样 的 情况 ， 进 行 递归 调用 来 
枚 举 每 一 个 子 表达 式 。 每 次 调用 都 会 记 住 具有 最 小 代价 的 计划 ， 这 样 简单 地 重复 调用 相同 
的 子 表 达 式 返回 记忆 的 结果 。 带 有 备 忘 的 递归 策略 和 动态 规划 的 递归 是 等 价 的 。 自 项 向 下 
方法 的 优点 是 查询 过 程 中 剪 枝 可 能 性 更 多 一 些 。 


使 用 排序 


上 述 方法 忽视 了 一 个 事实 ， 即 某 些 特定 操作 本 身 可 能 代价 昂贵 但 可 以 为 多 个 后 续 操 
作 带 来 好 处 从 而 降低 代价 ， 如 排序 操作 (以 及 我 们 后 面 讨论 的 网 络 数 据 传输 操作 ) 。 

例如 ， 假设 plays 和 reviews 返回 的 是 按 电影 名 称 排序 后 的 结果 数据 ， 如 果 对 movie 也 
按 电影 名 称 进行 排序 ， 可 以 使 用 合并 连接 算法 处 理 此 查询 。 也 许 对 movie 表 进 行 排序 的 代 
价 会 抵消 与 plays 表 做 合并 连接 的 好 处 ,但 是 如 果 考 虑 到 在 后 续 与 reviews 表 进 行 第 二 次 合 
并 连接 过 程 中 获得 的 好 处 ， 有 可 能 排序 是 一 种 非常 好 的 方案 。 

遗憾 的 是 动态 规划 策略 不 会 考虑 到 这 种 情况 ， 其 找到 的 连接 movie 和 plays 表 的 最 优 
计划 不 是 排序 -合并 连接 操作 ; 因此 它 将 抛弃 这 一 可 选 的 二 路 表 连 接 计 划 。 当 3 路 movie- 
plays-reviews 表 进 行 连接 时 ， 只 会 用 到 动态 规划 表 中 记录 的 2 路 表 连 接 。 

如 何 解决 这 个 问题 ?从 根本 上 来 说 ， 必 须 扩展 动态 规划 表 把 排序 考虑 在 内 。 查 询 优 
化 器 首先 遍历 整个 查询 找到 所 有 潜在 的 可 以 应 用 于 连接 算法 的 有 用 排序 (有 意义 的 排 
序 )， 比 如 ORDER BY FAJAI GROUP BY 子 句 。 在 我 们 的 例子 中 ， 有 意义 的 排序 属性 是 
电影 名 称 (在 movie KPE title 字段 ，plays 和 reviews 表 则 是 movie 字段 )。 在 枚 举 计划 
的 每 一 步 ， 查 询 优化 器 都 会 记录 每 一 个 基于 排序 和 非 排序 的 最 优 子 表达 式 (RAY 
要 ， 就 添加 一 个 排序 操作 来 生成 排序 结果 ) 。 最 后 ， 查 询 优化 器 会 选择 不 同 排序 和 非 排 
序 计 划 中 代价 最 低 的 〈 除 非 查询 最 后 有 一 个 ORDER BY 子 句 ， 在 这 种 情况 下 会 选择 合适 
的 排序 计划 ) 。 


CCP AUB TT 

代价 和 基数 估计 是 紧密 相关 的 : 对 于 每 一 个 算法 ， 查 询 优 化 器 使 用 代价 公式 (通常 以 
时 间 为 单位 ) ， 对 既定 的 输入 和 输出 ， 计 算 给 定 操作 的 代价 。 举 例 来 说 ， 代 价 公式 可 能 要 
计算 对 给 定 大 小 的 关系 的 访问 磁盘 页 的 数量 ， 或 者 在 散 列 表 中 查找 数据 时 需要 调用 散 列 函 
数 的 次 数 〈 代 价 公 式 通常 在 DBMS 配置 阶段 设置 一 系列 校准 参数 来 匹配 DBMS 所 运行 的 硬 
件 速 度 ) 。 

基数 估算 主要 依赖 数据 库 离线 时 搜集 的 信息 (通过 周期 性 地 刷新 ) 进行 估算 ， 查 询 优 
化 器 能 够 从 数据 目录 和 已 有 索引 中 查询 到 每 一 个 基本 表 的 基数 ， 对 于 索引 的 属性 字段 也 可 
以 估计 出 最 大 值 和 最 小 值 。 另 外 ，DBMS 的 “ 调 优 向 导 ” 和 数据 库 管理 员 可 以 创建 表 中 某 
些 属 性 的 数据 分 布 信息 〈 比 如 ， 直 方 图 和 唯一 值 的 数量 ) 。 最 后 ，DBMS 完整 性 约束 (如 
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键 约 束 、 唯 一 性 约束 、 外 键 约束 ) 可 以 允许 系统 推断 某 些 属性 值 的 分 布 信息 。 

基于 这 些 信 息 ， 查 询 优化 器 可 以 估计 有 多 少 值 满足 选择 谓词 (通过 确定 哪些 直方 图 桶 
或 子 集 可 能 满足 该 谓词 ) 或 一 个 连接 条 件 〈 通 过 计算 直方 图 交叉 ) 。 当 有 多 个 谓词 出 现在 
查询 中 时 ， 优 化 器 为 简化 处 理 通常 做 一 些 假设 , 例如 ， 属 性 间 是 相互 独立 的 。 实 际 上 ， 优 
化 器 这 些 假设 很 容易 出 错 ， 不 过 它们 至 少 确保 优化 器 不 会 选择 异常 糟糕 的 计划 。 


8. 1.2 执行 查询 计划 


查询 执行 引擎 以 指定 了 一 系列 具体 操作 算法 的 物理 计划 为 输入 ， 并 在 数据 源 关 系 上 执 
行 相关 操作 。 查 询 执 行 过 程 中 会 出 现 有 关 处 理 粒 度 和 控制 流 的 一 些 选择 ， 接 下 来 ， 将 讨论 
每 一 个 可 能 的 查询 选择 ， 稍 后 将 介绍 设计 目标 。 


Ab BER BE 

当 学 习 关 系 代数 时 ， 我 们 通常 将 查询 操作 EE, BUM AES) 视 为 原子 操作 ， 它 
们 以 关系 作为 输入 ， 并 输出 关系 。 现 实 中 ， 查 询 执行 引擎 很 少 会 进行 这 样 的 计算 操作 ， 主 
要 原因 有 两 个 : 第 一 ， 每 个 操作 产生 的 中 间 结 果 数 据 的 大 小 可 能 会 超过 内 存 大 小 ， 把 这 些 
中 间 结 果 数 据 缓存 在 内 存 并 与 磁盘 交互 的 代价 非常 昂贵 。 第 二 ， 更 重要 的 是 ， 我 们 通常 会 
在 查询 计划 中 对 多 个 运算 符 并 行 处 理 ， 以 减少 查询 响应 时 间 。 

因此 ， 大 多 数 的 查询 引擎 支持 流水 线 式 查询 处 理 。 每 一 个 操作 符 都 会 读 和 足够 的 输入 
元 组 以 产生 一 条 单一 的 结果 元 组 。 然 后 将 结果 元 组 传递 给 查询 处 理 的 下 一 个 阶段 (也 就 是 
查询 执行 计划 中 其 父 操 作 符 ) 。 当 操作 成 功 地 产生 输出 时 该 过 程 会 重复 地 进行 下 去 。 操 作 
符 产 生 一 个 输出 元 组 ， 即 把 结果 传递 给 它 的 父 运 算 符 ， 循 环 往复 地 执行 〈 稍 后 ， 我 们 会 讨 
论 执 行 过 程 中 的 控制 流 ) 。 

当然 ， 将 查询 计划 中 的 所 有 操作 都 采用 流水 线 式 处 理 也 是 行 不 通 的 。 首 先 ， 许 多 操作 
( 比如， 部 分 连接 操作 、 分 组 和 排序 ) 需要 缓存 它们 所 需 的 元 组 ， 这 往往 需要 大 量 的 内 存 
空间 ， 而 内 存 通常 难以 同时 给 所 有 操作 符 提供 足够 的 缓存 空间 。 其 次 , 一些 操 作 (例如 ， 
排序 、 基 于 无 序 属性 的 分 组 ) ÆRE (blocking) AY: 这 些 操作 符 要 求 操作 所 需 的 数 


据 全 部 产生 后 才能 产生 结果 数据 。 最 后 ， 有 时 asic, 
查询 优化 器 会 认为 计算 并 保存 中 间 结 果 有 利于 
提高 效率 ( 比如 ， 将 中 间 结 果 分 享 给 多 个 子 表 HJoin wo ao 
达 式 或 查询 ) 。 在 上 述 各 种 情况 下 ， 查 询 计划 会 
出 现 一 个 物化 点 ( materialization point), ， 即 处 在 I-NLIOIN gine ow en (Reviews): 
该 时 间 点 的 中 间 关 系 需要 被 计算 、 缓 存 ， 并 保 NS ze 
存 到 磁盘 (如果 有 必要 ) 。 ee eee 
物化 点 为 查询 计划 中 的 最 高 点 ， 在 此 它 获 mtite: a iler 
取 了 所 有 的 元 组 。 物 化 结果 计算 完毕 后 ， 位 于 ow sw ee 
物化 点 之 上 的 操作 符 从 中 获得 输入 元 组 。 因 此 a a 
可 以 将 物化 点 视 为 一 个 “屏障 " ， 用 于 分 割 查询 eee ee i ree 


计划 的 各 个 阶段 (这 里 ， 每 个 阶段 的 所 有 操作 扫描 ，LNLJoin 为 索引 堪 套 循环 连接 ， 
都 工作 在 同一 流水 线 上 ) 。 HJoin 为 散 列 连接 
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例 8.2 图 8-3 中 的 查询 计划 包含 一 个 散 列 连接 操作 (HJoin) ， 它 是 一 个 部 分 阻塞 操 
作 。 散 列 连 接 可 分 为 两 个 阶段 :建立 索引 阶段 会 将 参与 连接 操作 的 一 个 关系 表 读 进 散 列表 
(在 本 例 中 就 是 处 在 连接 操作 右边 的 reviews R); 然后 ， 探 查 阶段 会 以 流水 线 的 方式 依次 
将 左边 输入 的 元 组 读 人 并 与 散 列表 进行 匹配 ， 然 后 将 结果 传递 给 下 一 个 流水 线 操作 阶段 。 
建立 索引 阶段 会 阻塞 当前 执行 计划 剩余 部 分 的 执行 直至 其 输入 操作 完成 ， 探 查 阶 段 完全 采 
用 流水 线 方式 。 <<< 


Fad it 

查询 计划 中 查询 操作 算法 的 调度 可 以 有 多 种 方法 。 一 种 极端 情况 下 ， 可 以 简单 地 将 每 个 
操作 交 由 其 自己 的 线程 来 处 理 〈 或 一 个 单独 的 进程 ) ， 操 作 符 间 可 以 通过 队列 彼此 传递 元 组 。 
另 一 种 极端 情况 下 ， 只 有 一 个 单一 的 执行 线程 ， 由 其 负责 控制 每 个 操作 符 的 执行 周期 。 

单机 环境 下 ， 传 统 的 DBMS 架构 更 类 似 于 后 者 : 它 采 用 自 项 向 下 的 基于 迭代 器 的 架 
构 ， 其 中 每 个 操作 符 每 次 调用 它 的 子 操作 来 检索 一 个 元 组 ， 并 执行 对 这 些 元 组 的 操作 ， 然 
后 将 结果 返回 到 它 的 父 操作 或 查询 输出 缓冲 区 。 和 迭代 模型 在 CPU 密集 型 操作 环境 下 具有 
关键 性 优势 : 它 消 除了 线程 间 上 下 文 切换 的 开销 ， 也 节省 了 数据 项 进入 和 离开 队列 时 频繁 
复制 数据 的 代价 。 

在 分 布 式 和 并 行 DBMS 中 〈 我 们 在 下 一 节 进 一 步 讨 论 ) ， 查 询 处 理 通常 是 IO 密集 型 
BRE: 许多 IO 操作 可 能 会 同时 出 现 ， 我 们 的 目标 是 当 数 据 到 来 时 尽快 释放 CPU 资源 。 
对 于 这 些 架构 ， 数 据 流 式 处 理 或 自 底 向 上 的 架构 很 受 欢迎 。 这 里 ， 可 能 有 许多 查询 操作 的 
线程 ， 其 中 每 个 都 是 事件 驱动 的 。 当 可 用 的 输入 元 组 到 达 后 ， 它 被 传送 到 查询 操作 线程 ， 
该 线程 对 其 进行 处 理 ， 并 将 它 输出 到 其 他 线程 的 输入 队列 。 

近年 来 ， 混 合 架 构 受 到 关注 并 被 广泛 研究 。 不 同 于 以 往 流水 线 模 式 下 一 次 传递 一 个 元 
组 ， 许 多 系统 采用 批量 的 方式 传递 和 操作 元 组 : 批 处 理 在 缓存 和 CPU 调度 方面 存在 优势 。 
此 外 ， 将 迭代 模型 和 有 限 的 线程 数 进行 融合 的 处 理 方式 〈 例 如 ， 对 于 数据 预 取 ) 在 处 理 外 
部 数据 方面 已 经 得 到 应 用 。 


8.2 背景 : 分 布 式 查询 处 理 


当然 ， 传 统 的 数据 库 并 不 仅仅 受 限 于 单一 服务 器 场景 ， 分 布 式 数据 库 管 理 系统 已 经 研 
究 了 许多 年 。 这 里 ， 我 们 扼要 地 介绍 分 布 式 数 据 库 系统 的 一 些 关 键 技术 ， 因 为 这 些 技术 对 
数据 集成 领域 的 研究 工作 影响 很 大 。 


并 行 数据 库 系 统 与 分 布 式 数 据 库 系统 


从 表面 上 看 ， 并 行 和 分 布 式 DBMS 看 似 颇 为 相似 : 都 采用 多 个 计算 和 数据 存储 节点 并 
协调 各 种 机 器 进行 查询 处 理 。 事 实 上 ， 它 们 采用 的 基本 假设 和 处 理 方法 却 有 很 大 的 不 同 。 
并 行 DBMS 的 各 个 节点 通常 假定 是 同 质 的 并 通过 快速 网 络 连接 成 一 个 全 局 存储 系统 。 并 行 
DBMS 主要 目标 是 跨 机 器 节点 对 数据 进行 分 区 ， 并 在 许多 机 器 节点 上 并 行 执行 相同 的 操 
作 ， 这 样 就 可 以 实现 负载 平衡 、 提 高 查询 速度 。 在 分 布 式 DBMS 中 ， 不 同 的 机 器 具有 非常 
不 同 的 性 能 特性 ， 网 络 性 能 可 能 会 比较 慢 而 且 变化 的 幅度 也 比较 大 。 此 外 ， 某 些 数据 源 可 
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能 仅 被 特定 的 机 器 访问 。 为 优化 性 能 ， 分 布 式 DBMS 的 挑战 是 确定 哪些 操作 由 哪些 机 器 执 
行 。 下 面 将 集中 讨论 这 一 问题 。 


8.2.1 数据 放置 和 转移 


通常 情况 下 ， 一 个 分 布 式 DBMS 的 管理 员 必 须 考 虑 数据 放置 (data placement) 的 问 
题 : 如 何 将 一 组 数据 分 布 到 一 组 分 布 式 的 机 器 上 。 数 据 放 置 通常 有 多 种 选择 : 数据 可 以 基 
于 关系 进行 划分 ， 例 如， 某 些 特定 的 表 存 放 在 一 台 机 器 上 ， 其 他 表 放 置 在 男 外 的 机 器 上 ; 
可 以 是 水 平 划 分 ， 也 就 是 同一 个 表 的 不 同行 放置 在 不 同 的 机 器 上 ， 或 者 垂直 划分 ， 也 就 是 
将 同一 个 表 的 不 同 列 放 置 在 不 同 的 机 器 上 。 每 种 方法 都 表现 出 不 同 的 性 能 : 关系 划分 可 以 
允许 同一 查询 计划 中 不 同 的 查询 子 表 达 式 在 不 同 的 机 器 上 并 行 计算 ; 水 平 划分 允许 同一 
查询 计划 中 的 子 查询 对 分 布 在 不 同 机 器 上 的 不 同 数据 进行 并 行 计算 ; 垂直 划分 允许 在 不 
同 的 机 器 上 并 行 计 算 不 同 的 查询 谓词 。 当 然 ， 除 了 数据 划分 外 ， 也 可 以 通过 副本 (rep- 
licate) 和 索引 来 提高 查询 性 能 ， 但 这 可 能 增加 成 本 和 更 新 所 需要 的 其 他 资源 (空间 ， 
或 者 网 络 带宽 ) o 

集中 式 DBMS 有 一 个 对 系统 性 能 影响 极 大 的 重要 特性 ， 即 查询 子 结果 的 有 序 性 (或 无 序 
性 )。 分 布 式 数据 库 还 具有 第 二 个 特性 ， 即 存储 位 置 (或 者 水 平 划 分 的 情况 下 ， 位 置 集 ) 。 为 
了 执行 一 个 连接 或 聚集 操作 ， 具 有 相同 键 值 的 所 有 数据 必须 位 于 相同 的 查询 处 理 节点 。 

上 述 这些 特 性 催生 了 两 个 新 的 物理 层 的 查询 操作 符 : 转移 (ship) 和 交换 (exchange), Fil 
者 通过 缓存 或 批 处 理 的 方式 将 一 个 子 查询 的 输出 结果 传送 给 另 一 个 节点 上 的 查询 计划 作为 输入 。 
后 者 并 行 地 运行 在 许多 水 平 划分 的 数据 节点 上 ， 并 采用 一 个 基于 关键 字 的 划分 函数 对 这 组 节点 
的 元 组 进行 “交换 ”， 最 后 使 得 具有 相同 关键 字 的 数据 处 在 同一 个 数据 节点 上 。 用 于 交换 操作 
的 数据 划分 原则 上 可 以 通过 以 下 几 种 方法 实现 : 在 机 器 上 划分 范围 ， 将 关键 词 散 列 到 机 器 上 ， 
或 者 执行 某 种 负载 平衡 。 基 于 散 列 的 交换 策略 ， 有 时 也 称 为 重 散 列 (rehash) 操作 。 

当然 ， 如 果 引 入 新 的 物理 层 的 查询 操作 ， 自 然 需 要 估计 其 在 查询 优化 中 的 代价 。 之 前 
的 经 验 已 经 证 明 在 实际 应 用 中 要 做 到 这 一 点 是 非常 困难 的 ， 因 为 互联 网 上 的 性 能 通常 是 不 
可 预知 的 。 我 们 无 法 根据 一 个 网 络 连接 的 代价 来 估算 出 其 他 网 络 连接 的 代价 (即便 是 与 其 
相 邻 网 站 的 连接 ) 。 因 此 ， 分 布 式 查询 处 理 早 期 的 研究 主要 针对 局 域 网 或 企业 网 络 ， 这 些 
网 络 中 其 节点 互联 的 代价 基本 相当 。 今 天 ， 随 着 互联 网 骨干 节点 和 终端 节点 带宽 的 增加 ， 
网 络 性 能 似乎 更 加 稳定 。 


8.2.2 两 阶段 连接 


基于 转移 (或 者 交换 ) 操作 ， 人 们 可 以 构建 一 个 完整 的 分 布 式 查询 处 理 器 ， 即 使 数据 
被 划分 ， 分 布 式 查询 处 理 器 也 可 以 跨 机 器 处 理 分 布 的 数据 ， 执 行 SQL 查询 。 然 而 ， 查 询 效 
率 的 问题 也 相应 出 现 : 如 果 我 们 有 两 张 表 ， 分 别 位 于 不 同 的 计算 机 上 ， 那 么 对 两 张 表 进行 
连接 操作 的 计算 代价 是 相当 昂贵 的 。 必 须 将 一 张 表 的 全 部 数据 传送 到 到 其 他 机 器 上 (或 者 
将 两 台 机 器 上 的 数据 传送 到 第 三 台 计 算 机 ) 来 进行 计算 。 大 多 数 情况 下 ， 尽 管 表 中 相当 一 
部 分 数据 不 会 产生 连接 操作 ， 但 还 是 需要 传输 这 些 数据 。 

基于 上 述 因素 ， 分 布 式 连接 操作 通常 可 以 分 为 两 个 阶段 。 这 里 ， 首 先 将 第 一 张 表 民 的 
连接 关键 字 做 一 个 投影 操作 ， 生 成 结果 以 “摘要 ”的 形式 传送 给 第 二 个 节点 。 我 们 使 用 
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“摘要 ”对 第 二 张 表 5 的 元 组 进行 “预选 ”: 将 5 中 能 与 连接 的 元 组 (通过 RR 的 “ 摘 
要 ” 按 连 接 属性 探测 3 表 得 出 ) 收集 并 送 回 第 一 个 节点 。 之 后 ， 第 一 个 节点 将 RR 与 收 到 
的 S 的 子 集 执行 实际 的 连接 操作 。 

通过 这 种 方式 ， 网 络 带 宽 的 使 用 可 以 显著 地 降低 ， 这 是 因为 尺 的 “摘要 ”总 是 小 于 R 
KG, 并 且 只 需要 将 与 匹配 的 5 的 子 集 传送 给 RR 即 可 。 当 然 ， 摘 要 必须 满足 连接 操作 的 
一 些 特性 。 具 体 地 说 ， 按 摘要 进行 探测 必须 不 能 出 现 漏 报 (false negative) ， 也 就 是 说 ， 如 
果 一 个 键 值 满 足 连接 需求 ， 探 测 结 果 必 须 返 回 true。 下 面 介 绍 两 种 摘要 。 


双向 半 连 接 


双向 半 连 接 操作 (2-way semijoin) 利用 对 表 R 的 连接 键 属性 做 (集合 语义 ) 投影 操 
作 形 成 对 该 表 的 摘要 。 第 一 个 节点 将 搜集 的 摘要 发 送 给 第 二 个 节点 。 当 第 二 个 节点 进行 连 
接 探 测 时 ， 就 不 会 有 遗漏 的 连接 元 组 现象 发 生 〈 或 误 报 ) 。 因 此 ， 它 能 够 准确 地 将 与 表 民 
连接 匹配 的 $ 的 元 组 集合 发 送 给 第 一 个 节点 。 


布 隆 连 接 


如 果 对 表 R 进行 投影 获得 的 摘要 数据 集 比较 大 ， 那 么 双向 半 连 接 的 代价 可 能 比较 大 。 布 
隆 连接 (Bloomjoin) 使 用 从 R 的 连接 关键 属性 的 布 隆 过 滤器 (bloomfilter) 减少 摘要 结构 的 
大 小 。 布 隆 过 滤器 可 能 会 导致 一 个 误 报 操作 ， 但 绝 不 会 将 可 以 连接 的 元 组 漏 报 。 布 隆 过 滤器 
是 一 个 位 向 量 V， 附 带 m 个 散 列 函数 。 最 初 ， 向 量 的 所 有 位 置 都 设 为 0。 对 于 每 一 个 要 插入 
布 隆 过 滤器 的 元 素 x， 设置 向 量 VLh,(x)] 的 位 为 1(1<i<m)。 之 后 ,通过 计算 和 "1V[h,(x)] 
WICK x 进行 探测 。 向 量 空间 越 大 ， 并 且 m 值 越 大 ， 则 冲突 越 少 ( 误 报 率 越 少 ) 。 

双向 半 连 接 和 布 隆 连接 的 代价 估算 主要 考虑 表 RR 摘要 的 大 小 、 表 5 BRR 摘要 连接 的 元 
组 数量 、 网 络 带 宽 和 延迟 等 方面 的 因素 。 最 终 的 查询 计划 如 图 8-4 所 示 ， 该 图 描述 了 将 数据 
从 表 Movie 传送 给 表 Plays 的 过 程 。 表 Plays 节点 和 表 Reviews 进行 双向 半 连 接 操 作 ， 它 将 所 
有 的 电影 名 称 发 送 给 表 Reviews 节点 ， 然 后 返回 表 Reviews 中 与 这 些 名 称 匹 配 的 评论 。 表 
Plays 节点 依据 返回 结果 做 最 后 的 连接 和 投影 ， 返 回 结果 给 用 户 。 





图 8-4 图 8-2 的 物理 查询 执行 计划 在 三 个 节点 间 的 处 理 情 况 。 注 意 
双向 半 连 接 (由 虚线 箭头 及 文字 标示 ) 的 转移 操作 和 数据 流 
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8.3 数据 集成 查询 处 理 


从 更 高 层面 来 说 ， 数 据 集成 环境 下 的 查询 处 理 是 分 布 式 查 询 处 理 问 题 的 一 种 特殊 情 
况 ， 不 同 之 处 是 分 布 式 DBMS 站 点 被 分 布 式 数据 源 所 取代 。 不 过 ， 由 此 带 来 新 的 挑战 ， 数 
据 集成 中 数据 源 是 分 散在 互联 网 中 而 不 是 分 布 在 企业 内 部 的 局 域 网 ， 数 据 源 是 自治 的 并 且 
与 其 他 数据 源 之 间 的 合作 关系 很 少 ， 而 且 数据 源 的 信息 不 容易 获得 。 

图 8-5 显示 的 是 目前 主要 数据 集成 系统 采用 的 查询 处 理 框架 。 与 传统 的 DBMS 一 样 ， 
查询 处 理 的 第 一 步 是 查询 解析 。 接 下 来 ， 不 是 简单 地 展开 视图 ， 数 据 集成 引擎 必须 使 用 模 
式 映 射 重 写 查询 ( 见 第 2 章 )。 查 询 重 写 后 ， 需 要 进行 优化 和 执行 一 一 这 里 显著 的 变化 是 ， 
不 只 是 查询 优化 器 和 执行 引 苟 内 部 ， 两 者 构成 的 循环 体 需要 不 断 重 复 优 化 和 执行 。 


查询 结果 
基于 中 介 模 式 的 查询 
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图 8-5 数据 集成 系统 处 理 框架 


被 集成 的 数据 源 一 般 是 由 外 部 组 织 控制 (事实 上 ， 可 能 不 是 DBMS) 。 这 就 需要 数据 
集成 查询 处 理 器 必须 能 够 识别 数据 源 提供 的 接口 以 便 接受 和 请 求 数据 。 简 单 的 数据 源 可 能 
只 需 提 供 直 接 访问 XML 或 HTML 文件 的 接口 并 从 中 提取 所 需 的 数据 。 其 他 数据 源 可 能 提 
供 一 个 Web 表单 接口 ， 通 过 提供 一 定 的 输入 参数 才能 访问 (参见 3.3 节 ) 。 最 后 ， 有 一 些 
数据 源 实际 上 可 能 提供 完整 的 SQL 支持 (或 者 类 SQL 语言 )。 所 有 这 些 问 题 不 仅 需 要 在 查 
询 优 化 器 慎重 对 待 ( 见 8.4 节 ) ， 还 要 开发 定制 的 包装 器 ， 用 来 完成 公共 查询 请 求 /应 答 格 
式 和 各 数据 源 格式 之 间 的 转换 ( 见 第 9 章 ) 。 

互联 网 的 数据 集成 也 可 能 带 来 一 些 难 以 预知 的 后 果 。 首 先 ， 数 据 传输 速率 非常 难以 预 
测 ， 并 且 突 发 性 和 有 限 的 带宽 也 可 能 会 引发 一 些 问 题 。 其 次 ， 因 为 是 在 一 个 局 域 网 络 或 本 
地 进行 查询 处 理 ， 所 以 计算 过 程 更 可 能 是 IO 密集 型 ， 而 不 是 CPU 密集 型 的 。 最 后 ， 对 
于 大 多 数 互 联网 应 用 ， 我 们 总 是 想 尽快 获得 查询 所 需 的 第 一 个 元 组 ， 然 后 逐步 输出 其 他 结 
果 。 这 些 导致 了 一 个 新 型 的 查询 处 理 框架 和 新 的 查询 操作 ， 这 一 点 将 在 8. 5 节 讨 论 。 

最 后 ， 大 多 数 数 据 集成 方案 在 编译 时 因为 信息 太 少 而 无 法 做 到 很 好 的 优化 决策 。 网 络 
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实际 利用 率 ， 各 个 数据 源 上 的 数据 分 布 ， 甚 至 是 服务 多 个 并 发 任务 的 给 定数 据 源 的 响应 时 
间 一 一 所 有 这 些 都 可 能 使 得 优化 估计 偏离 最 初 基 于 参数 进行 的 数据 查询 代价 估算 。 事 实 
上 ， 在 执行 查询 过 程 中 这 些 特征 也 可 能 发 生 显著 改变 ! 因此 ， 如 8.6 节 将 要 讨论 的 那样 ， 
对 于 长 时 间 运 行 的 查询 ， 采 用 自 适应 策略 是 很 重要 的 ， 查 询 计 划 可 能 需要 根据 实际 观察 到 
的 性 能 特点 随时 进行 调整 。 


8.4 生成 初始 查询 计划 


如 果 获 得 的 关于 代价 和 数据 分 布 的 信息 比较 少 ， 那 么 一 个 数据 集成 查询 的 优化 问题 实 
际 上 是 非常 具有 挑战 性 的 。 当 然 ， 在 某 些 环境 中 (例如 ， 内 联网 )， 这 些 信息 可 能 是 可 以 
得 到 的 。 总 之 ， 查 询 处 理 器 必须 在 至 少 产 生 一 个 局 部 的 查询 计划 时 开始 执行 。 通 常情 况 
下 ,使 用 已 有 的 统计 信息 通过 传统 查询 优化 模型 的 一 个 修改 版 来 完成 (如 果 统 计数 据 不 可 
用 ， 也 可 以 估算 ) 。 

数据 集成 查询 优化 器 必须 处 理 传统 RDBMS 不 存在 的 两 个 约束 。 首 先 ， 输 入 绑 定 约束 
使 得 某 些 查询 计划 变 得 不 合法 ， 只 是 因为 它们 没有 绑 定 访问 一 个 特定 数据 源 所 需要 的 输入 
变量 。 其 次 ， 一 些 数据 源 只 能 执行 部 分 的 查询 计算 〈 例 如 ， 它 们 可 以 在 数据 源 提 供 的 表 之 
间 做 连接 操作 ) : 这 里 查询 优化 能 够 确定 支持 哪些 操作 、 预 期 的 代价 和 基数 变 得 至 关 重 要 。 

推断 输入 绑 定 约束 的 问题 与 传统 优化 器 已 经 需要 做 的 工作 没有 很 大 差别 。 优 化 器 已 经 
需要 推算 某 个 物理 或 旬 辑 计划 何 时 有 效 〈 例 如 ， 当 一 个 谓词 的 输入 属性 未 知 或 者 需要 进行 
笛 卡 儿 积 操作 时 ,但 笛 卡 儿 积 却 需 要 先 处 理 完 所 有 连接 条 件 后 才 可 以 执行 )。 然 而 ,与 
System-R 中 使 用 的 左 深 树 连 接 计划 不 同 ， 输 入 绑 定 约束 有 时 需要 穷尽 评估 所 有 查询 计划 
(“ 浓 密 〈bushy)” 枚 举 )。 此 外 ， 输 入 绑 定 约束 必须 适应 使 用 一 个 依赖 连接 操作 ( 见 8.5.2 
节 ) ， 而 不 是 一 个 更 传统 的 连接 算法 。 

带 有 包装 器 (wrapper) 的 查询 优化 通常 更 为 复杂 。 这 种 查询 优化 器 必须 确定 哪些 操 
作 将 在 包装 器 中 执行 ， 哪 些 在 主 查 询 引擎 中 执行 ， 查 询 优化 器 也 要 计算 在 包装 器 中 执行 子 
查询 的 代价 。 鉴 于 上 述 因 素 ， 包 装 器 必须 拥有 查询 执行 组 件 〈 实 际 的 包装 器 操作 ) 和 查询 
优化 组 件 (一 个 为 包装 器 进行 计划 验证 和 代价 估计 的 插件 )。 优 化 器 可 以 为 每 个 操作 符 指 
定 一 个 属性 来 指定 操作 执行 的 位 置 〈 由 包装 器 或 执行 引擎 调用 ) ， 而 包装 器 的 优化 组 件 对 
给 定 查询 子 表达 式 进 行 可 行 性 验证 并 估算 该 子 表达 式 在 包装 器 执行 的 代价 。 


8.5 互联 网 数据 的 查询 执行 


在 互联 网 环境 下 ，CPU 通常 要 等 待 新 的 数据 到 达 才 可 以 进行 进一步 的 计算 。 此 外 ， 突 
发 事件 、 延 迟 ， 甚 至 查询 失败 也 是 相当 普遍 的 。 另 外 ， 数 据 集成 引擎 必须 与 各 种 支持 不 同 
协议 的 外 部 资源 进行 交互 ， 因 此 需要 特定 的 连接 方法 来 处 理 访问 模式 约束 ， 也 需要 包装 器 
完成 数据 源 特有 请 求 和 响应 格式 与 标准 请 求 和 响应 格式 之 间 的 转换 。 


8. 5.1 多 线程 、 流 水 线 、 数 据 流 架构 


来 自 外 部 互联 网 数据 源 的 数据 处 理 速 度 相 对 缓慢 : 这 打破 了 大 多 数 DBMS 架构 的 核心 
假设 〈 即 使 是 局 域 网 ) ， 即 ， 查 询 处 理 主要 是 CPU 密集 型 ， 查 询 优化 的 目标 是 在 精心 优化 
的 代码 中 添加 “紧密 循环 ”(tight loops) 处 理 。 正 如 8. 1.2 节 所 述 ， 大 多 数 传统 DBMS 使 
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用 一 个 基于 迭代 器 〈iterator) 的 方法 ， 也 就 是 由 计划 中 的 查询 执行 算法 决定 如 何以 及 何 时 
将 控制 权 交 给 它们 的 子 操作 。 

另 一 方面 ， 数 据 集成 引擎 通常 采用 和 迭代 器 和 数据 流 驱动 架构 的 混合 架构 : 概念 上 , 与 
传统 的 和 迭代 器 模型 类 似 ， 每 个 操作 每 次 向 它 的 子 节点 请 求 一 个 元 组 。 孩 子 节点 的 操作 以 及 
其 父 节 点 的 操作 可 能 采用 独立 的 线程 〈 它 们 之 间 通 过 队列 进行 通信 ) 。 如 果 某 一 个 子 操作 
等 待 输入 时 被 阻塞 ， 则 CPU 可 以 上 下 文 切换 到 一 个 可 能 继续 向 前 执行 的 其 他 线程 。 


流水 线 散 列 连接 


数据 集成 查询 计划 中 主要 的 多 线程 操作 是 流水 线 散 列 连接 (pipelined hash join) ， 有 时 
也 称 为 双流 水 线 连接 、 对 称 散 列 连接 ， 或 X-join。 该 算法 会 构造 两 张 散 列表 ， 每 一 个 输入 
关系 对 应 一 张 表 ， 并 且 探 测 来 自 与 它们 相对 的 另 一 个 关系 中 的 元 组 。 

流水 线 散 列 连接 ( 见 图 8-6) 对 参与 连接 的 
两 张 关系 表 平 等 对 待 ， 只 需要 通过 两 个 输入 队列 
对 表 的 可 用 元 组 进行 监测 。 在 发 现 表 R 的 一 条 输 Erik 
入 元 组 后 ， 它 使 用 该 元 组 对 散 列表 进行 探测 ， 该 
散 列 表 中 存储 了 来 自 表 5 的 先前 读 入 的 元 组 ， 然 
后 输出 每 个 结果 元 组 。 同 时 ， 它 会 将 输入 元 组 添 
加 到 为 表 R 构建 的 散 列表 中 ( 即 构 建 步骤 )。 如 
果 遇 到 一 个 表 S 的 元 组 ， 即 会 按照 上 述 算法 流程 
同样 进行 处 理 。 该 连接 算法 有 几 个 非常 好 的 特性 : 创建 | 
连接 操作 一 旦 收 到 足够 的 用 于 处 理 的 元 组 ， 它 会 F i} 
立即 输出 连接 结果 ， 并 且 它 可 以 处 理 数据 源 的 突 /sy ae 
发 或 者 不 对 等 的 数据 传输 速率 。 然 而 ,算法 的 一 。 AR es See 
个 显著 缺点 是 它 比 其 他 算法 累积 了 更 多 的 内 存 状 ”图 8-6 ”流水线 散 列 连接 的 图 例 展示 。 其 中 数 
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态 信 Pa j R 据 源 R 的 每 个 元 组 存储 在 其 对 应 的 

态 信息 。 针对 这 问题 ， 人 们 提出 Retr 散 列 表 中 (由 索引 创建 阶段 产生 )， 

设法 换 出 来 自流 水 线 散 列 连 接 的 部 分 内 存 状态 信 数据 源 5 的 每 个 元 组 与 该 散 列表 进 

息 ， 这 样 即 便 遇 到 比 内 存 大 的 数据 集 也 可 以 持续 行 探查 连接 才 产生 最 终 的 结果 数据 

稳定 地 产生 输出 。 Rw S$， 数据 源 S 中 的 数据 也 以 对 称 
地 进行 处 理 

快速 获取 结果 的 散 列 操作 


除了 流水 线 散 列 连接 外 ， 大 多 数 数据 集成 引擎 倾向 于 使 用 基于 散 列 的 算法 〈 而 不 是 基 
于 索引 或 排序 方法 ) 处 理 查 询 操作 ， 这 其 中 也 包括 聚集 操作 。 数 据 集成 领域 很 少 会 用 到 索 
引 。 基 于 排序 的 方法 需要 多 次 排序 操作 才 可 以 最 终 产生 排序 结果 ， 而 这 与 尽早 产生 查询 结 
果 的 处 理 初衷 相 违 背 。 基 于 散 列 的 连接 即使 在 数据 规模 大 于 内 存 的 情况 下 ， 当 内 存 需 求 增 
多 时 ， 系 统 也 可 以 按 散 列 桶 的 方式 将 元 组 延迟 换 出 到 磁盘 。 在 大 多 数 情况 下 ， 一 些 散 列 桶 
并 不 需要 被 换 出 内 存 ， 在 它们 被 换 出 到 磁盘 前 就 能 被 该 查询 直接 输出 。 


8.5.2 有 自治 数据 源 的 接口 
数据 集成 的 物理 查询 计划 的 最 底层 通常 有 一 个 调用 包装 器 的 操作 。 这 个 操作 会 与 特 
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定数 据 源 的 一 个 包装 器 或 驱动 器 产生 交互 (有关 详细 信息 ， 请 参阅 第 9 章 ) ， 它 负责 以 各 
数据 源 本 身 的 协议 将 请 求 发 送 到 数据 源 并 以 数据 集成 引擎 需要 的 元 组 格式 返回 结果 数据 。 
目前 大 多 数 数 据 集成 系统 采用 的 “通用 ”包装 器 有 两 种 : 一 部 分 选用 ODBC 接口 ， 男 一 
部 分 则 选用 XML。 一 个 ODBC (开放 数据 库 互 联 ) 包装 器 通常 会 连接 到 一 个 ODBC 可 装载 
库 ， 主 要 的 关系 数据 库 供 应 商 和 所 用 的 主机 操作 系统 都 支持 对 这 个 库 的 调用 。ODBC 获取 
XML 产生 的 查询 并 返回 通过 游标 接口 访问 的 行 集合 查询 结果 。ODBC 包装 器 的 一 个 简单 任务 
是 将 下 推 查询 转换 成 SQL 语句 ， 然 后 读 取 行 集合 的 元 组 。XML 包装 器 通常 会 将 下 推 操作 转 
换 成 一 个 或 多 个 XPath 模式 ,通过 HTTP 请 求 来 获取 所 需要 的 XML 文档 ， 并 在 流入 的 数据 上 
计算 XPath。 抽 取 的 结果 返回 给 查询 计划 。 我 们 将 在 第 11 章 中 更 详细 地 讨论 XML 人 处理。 


包装 器 操作 


在 许多 情况 下 ， 包 装 器 操作 不 仅 有 获取 数据 的 能 力 ， 而 且 还 能 在 将 被 执行 的 数据 源 上 
构建 查询 。 可 以 被 查询 优化 器 下 推 的 操作 主要 包括 : 选择 条 件 、 投 影 ， 甚 至 是 出 现在 同一 
数据 源 的 表 之 间 的 连接 操作 。 当 然 ， 正 如 8.4 节 所 述 ， 数 据 源 必 须 能 够 执行 这 些 查 询 。 


利用 依赖 连接 操作 处 理 受 限 的 访问 模式 
如 3.3 节 和 8.4 节 中 所 描述 的 ， 有 时 对 数据 源 的 访问 必须 向 数据 源 提供 输入 〈 变 量 绑 


定 ) ， 才 能 返回 需要 的 输出 结果 。 为 了 能 够 处 理 

多 个 输入 集 ， 必 须 使 用 依赖 连接 操作 : 依赖 连接 w 

从 它 的 一 个 输入 中 提取 元 组 ， 然 后 再 把 这 些 元 组 J ~ 

作为 输入 传递 给 数据 源 包装 器 ， 最 后 返回 两 个 数 Wrapper Wrapper 

据 源 的 连接 操作 结果 。 依 赖 连接 是 8. 2. 2 节 中 所 an + OESR 

述 的 双向 半 连 接 操作 的 一 个 特例 ， 可 以 使 用 与 其 x 

相同 的 技术 来 实现 依赖 连接 操作 。 图 8-7 描述 了 . a “as 

依赖 连接 操作 的 数据 流程 ， 其 中 Movies 的 电影 名 Movie Plays 

称 作为 参数 传递 给 plays 数据 源 。 图 8-7 具有 依赖 连接 的 可 执行 
的 (物理 ) 查询 计划 

8. 5.3 故障 处 理 


有 时 网 络 数据 源 可 能 因为 系统 崩溃 或 网 络 分 区 等 原因 变 得 不 可 用 。 几 个 面向 Web 的 
数据 集成 系统 提供 事件 处 理 能 力 来 解决 此 类 故障 ， 当 系统 检测 到 故障 数据 源 时 ， 故 障 处 理 
模块 会 对 正在 执行 的 查询 计划 触发 简单 的 修改 。 常 用 的 做 法 是 通过 可 替换 的 其 他 数据 源 
〈 例 如， 镜像 或 一 个 轻 量 级 的 最 新 数据 副本 ) 来 获取 数据 。 我 们 将 在 8.7 节 讨论 这 些 事件 
如 何 触发 自 适应 行为 。 


8.6 自 适 应 查询 处 理 


基于 互联 网 数据 的 查询 处 理 遇 到 的 主要 问题 是 执行 条 件 不 断 的 变化 或 者 难以 准确 地 估计 
预期 结果 : 基数 或 代价 可 能 与 优化 估计 不 匹配 ; 数据 流 可 能 会 延迟 ;节点 可 能 连接 失败 等 。 
当然 ， 处 理 这 类 问题 的 方法 是 开发 一 个 具有 自 适应 能 力 的 查询 处 理 器 以 应 对 上 述 问题 。 
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总 的 来 说 ， 自 适应 策略 将 使 得 查询 执行 引擎 〈 只 是 执行 查询 操作 ) 和 查询 优化 器 〈 决 
定 查询 策略 ) 之 间 的 界线 变 得 模糊 。 相 反 ， 算 法 会 有 一 个 反馈 回路 来 检查 初始 代价 和 数据 分 
布 的 相关 信息 ; 可 以 基于 谓词 代价 形成 一 个 初始 的 计划 ; 计划 开始 执行 后 ; 代价 和 数据 分 布 信 
息 会 被 更 新 ; 反复 重复 上 述 过 程 来 完成 查询 计划 。 

所 有 自 适 应 查询 处 理 器 必须 权衡 各 种 因素 对 查询 处 理 的 影响 。 


信息 匮乏 

一 般 情 况 下 ， 有 许多 替代 方案 来 支持 自 适 应 查询 计划 一 一 但 实际 上 可 以 被 用 做 决策 执 
行 基础 的 可 用 信息 是 有 限 的 例如， 数据 分 布 、 相 关 性 )。 这 往往 需要 在 探测 (收集 信息 
消耗 的 资源 ) Fièi (产生 结果 消耗 的 资源 ) 之 间 做 权衡 。 





分 析 时 间 与 执行 时 间 

与 信息 匮乏 相似 ， 我 们 需要 权衡 花费 在 决策 制定 和 查询 执行 上 面 的 资源 。 通 常 频繁 采用 自 
适应 策略 可 以 提高 查询 计划 的 效率 ， 但 不 断 重 新 优化 过 程 增加 更 多 的 系统 开销 。 同 样 ， 在 一 个 
更 大 范围 内 搜索 可 蔡 换 的 查询 计划 需要 花费 更 多 的 时 间 ， 但 查询 执行 策略 的 效率 会 更 高 。 


空间 转换 
一 般 情况 下 ， 如 果 想 在 查询 制定 环节 具备 更 大 的 灵活 性 ， 则 需要 更 多 的 开销 ( 比如 ， 
元 余地 计算 结果 需要 的 额外 内 存 或 成 本 )。 


当前 和 未 来 状态 的 影响 


连接 操作 天 生 具 备 状态 丰富 这 一 特性 ， 随 着 查询 时 间 的 持续 增长 其 代价 不 断 增加 
(在 极端 条 件 下 ， 所 需 代 价 与 输入 数据 集 的 大 小 成 平方 关系 )。 我 们 必须 精心 地 加 以 处 
H, 不 能 因为 想 要 遏制 代价 的 增长 而 导致 更 多 状态 的 产生 (例如 ， 看 似 只 有 少数 的 元 组 
进行 连接 ,但 查询 中 间 结 果 数 量 庞 大 ， 以 致 随后 需要 花费 大 量 代价 来 处 理 这 些 结果 ) 。 

我 们 将 自 适应 技术 分 为 两 大 类 : 查询 处 理 环 境 中 事件 驱动 的 自 适应 策略 ; 用 于 监测 和 
判断 查询 处 理 修改 的 性 能 驱动 的 自 适应 技术 。 我 们 首先 介绍 事件 驱动 的 自 适应 技术 。 


8.7 事件 驱动 自 适应 策略 


显然 ， 数 据 集成 中 实行 自 适应 策略 研究 的 动机 是 执行 过 程 中 无 法 预测 事件 的 发 生 ， 尤 
其 是 在 Web 数据 源 的 情况 下 。 例 如 ， 当 数据 源 无 法 使 用 时 ， 需 要 设置 备用 策略 ; 当 一 个 
特定 的 数据 源 或 一 组 数据 源 接收 数据 出 现 延 误 时 ， 优 先 考虑 一 些 其 他 部 分 的 查询 执行 当 
流水 线 操作 阶段 结束 时 ， 我 们 可 能 会 发 现 ， 中 间 结 果 大 幅 偏离 了 原来 的 预期 ， 这 也 表明 重 
新 优化 查询 计划 剩余 部 分 可 能 是 有 益 的 。 

所 有 这 些 策略 都 可 以 通过 一 个 常用 的 事件 -条 件 -操作 规则 框架 来 处 理 ， 其 中 规则 由 
查询 运行 时 事件 来 触发 ， 条 件 被 评估 ， 并 且 操 作 由 响应 开始 启动 。 事 件 -条 件 -操作 规则 
的 一 般 形式 是 ， 在 事件 发 生 时 如 果 符 合 某 种 条 件 则 采取 一 系列 相应 的 操作 。 

这 里 典型 的 事件 可 以 是 一 个 新 的 流水 线 阶段 的 完成 或 启动 ， 一 个 包装 器 发 生 错误 或 超 
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时 ,或 者 目标 关系 处 理 元 组 的 数量 达到 一 定 的 值 。 例 如 ， 下 面 的 规则 是 当 wrapperl 设置 的 
时 间 惟 完成 时 就 会 激活 wrapper2 操作 。 

on timeout(wrapperl, 10 msec) iftrue then activate(wrapper2) 

我 们 用 一 个 五 元 组 来 描述 上 述 规则 <event, condition, action_sequence, owner, active > 。 
ower 是 运行 监控 器 的 查询 操作 。 如 果 ower 处 在 激活 状态 ， 规 则 的 active (活动 ) 标志 为 
真 ， 然 后 ， 一 个 event (事件 ) 可 以 启动 或 触发 规则 ， 对 condition (条 件 ) 进行 判断 。con- 
dition (条 件 ) 是 带 有 标准 操作 符 的 布尔 表达 式 ， 它 包括 整数 和 布尔 型 常量 ， 以 及 用 于 调 
查 查询 操作 状态 的 预定 义 函 数 : 一 个 操作 中 产生 的 中 间 状 态 的 大 小 ， 由 该 操作 读 取 和 输出 
的 元 组 基数 ， 该 操作 最 后 收 到 的 一 个 元 组 距离 当前 的 时 间 等 。 

如 果 规 则 的 条 件 满足 ， 规 则 就 开始 执行 ， 也 就 是 说 ， 运 行 时 系统 执行 动作 序列 内 的 动 
作 。 在 自 适应 查询 处 理 器 中 ， 这 些 操作 可 以 启用 或 禁用 部 分 查询 计划 ， 终 止 查询 执行 并 返 
回 错误 报告 给 用 户 ， 或 触发 查询 计划 部 分 的 重新 优化 。 规 则 一 旦 启动 ， 其 active (活动 ) 
标志 就 会 清除 。 

在 随后 的 章节 中 ， 我 们 将 介绍 如 何 使 用 规则 处 理 各 种 事件 以 及 随后 处 理 这 些 相关 事件 
可 能 会 采取 的 操作 。 


8.7.1 数据 源 故障 和 延迟 处 理 


当 数 据 源 完 全 不 可 用 时 〈 例 如 ， 由 于 服务 器 宕 机 或 网 络 分 区 ) ， 通 过 给 用 户 返 回 一 个 
错误 来 说 明 该 查询 不 能 完成 指定 的 操作 。 实 际 上 ， 在 某 些 情 况 下 ， 可 以 用 其 他 的 替代 策略 
获得 与 原始 数据 源 等 效 的 数据 ， 例 如， 利用 数据 镜像 或 者 通过 对 来 自 语义 相同 数据 源 的 数 
据 进 行 组 合 。 

从 概念 上 讲 ， 这 种 类 型 的 操作 可 以 参照 关系 运算 中 的 并 操作 ， 其 输入 是 可 以 被 蔡 换 的 
数据 源 。 然 而 ， 并 不 一 定 要 同时 向 所 有 数据 源 请 求 数据 。 为 此 ， 可 以 通过 一 个 动态 收集 
(dynamic collector) 操作 来 解决 ， 它 本 质 上 是 一 个 并 操作 ,不 同 之 处 在 于 其 本 身 含有 用 规 
则 描述 的 执行 策略 。 


ELT ECHR 

为 了 处 理 数 据 源 故 障 ， 查 询 优化 器 维护 由 多 个 子 树 构成 的 动态 收集 节点 ， 每 个 节点 表 
示 获 取 相 关 数 据 可 采用 的 一 个 不 同 子 计 划 。 优 化 器 生成 一 组 规则 来 启用 和 禁用 这 些 数据 
源 。 一 旦 查询 计划 开始 执行 ， 收 集 节点 便 启动 相关 输入 参数 收集 可 能 的 子 计 划 ; 然后 ， 当 
事件 发 生 时 ( 如 超时 、 彻 底 失 败 或 元 组 到 达 )， 与 收集 器 匹配 的 一 组 关联 规则 可 以 启用 或 
禁用 各 种 输入 。 

在 最 简单 的 情况 下 ， 优 化 器 可 以 为 处 理 数据 源 故障 或 超时 生成 规则 。 我 们 来 考虑 下 面 
的 例子 ， 这 里 操作 符 colll 有 两 个 包装 器 操作 ， 它 们 分 别 连 接 到 数据 源 4 ( 主 数据 源 ) 和 
数据 源 (替代 数据 源 ) 。 

ontimeout(A) if true then activate(coll1,B); deactivate(colll, A) 

更 复杂 的 基于 事件 驱动 的 查询 处 理 器 甚至 可 以 基于 每 一 个 元 组 生成 事件 ， 采 用 竞争 性 
执行 (competitive execution) 策略 ， 以 并 行 的 方式 向 多 个 数据 源 请 求 数据 并 终止 对 反应 较 
慢 的 数据 源 的 请 求 。 
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下 面 的 实例 子 说 明了 这 种 状况 ， 最 初 我 们 尝试 连接 数据 源 4 和 B。 系 统 对 最 早 发 送 
10 个 元 组 的 数据 源 进 行 处 理 ， 并 终止 对 另 一 个 数据 源 的 处 理 。 

on opened(coll1) if true then activate(coll1,A); activate(coll1,B) 

on tuplesRead(A,10) if true then deactivate(coll1,B) 

on tuplesRead(B,10) if true then deactivate(coll1,A) 


尽管 基本 事件 处 理 策 略 要 求 优化 器 提供 获取 数据 替代 方法 的 有 用 信息 ， 但 它 在 处 理 网 
络 问题 时 可 以 表现 出 很 大 的 灵活 性 。 


AFD BH Wed PE FEMI XS PJ EB [ro] 

对 于 一 个 没有 完全 实现 流水 线 操作 的 复杂 查询 计划 ， 即 便 在 其 他 数据 源 可 用 并 且 查 询 
计划 的 其 他 部 分 可 执行 的 情况 下 ， 其 中 某 个 数据 源 的 延迟 也 可 能 会 影响 整个 计划 的 执行 。 
解决 这 一 问题 的 方法 是 重新 调度 查询 执行 序列 ， 使 得 计划 的 延迟 部 分 被 暂停 ， 同 时 计划 的 
另外 部 分 可 以 启动 执行 。 

一 般 情 况 下 ， 重 新 调度 过 程 需 要 确定 一 个 新 的 可 执行 的 子 树 ， 并 将 它 从 当前 计划 树 中 
分 裂 成 独立 的 查询 ， 该 查询 的 结果 将 被 物化 成 表 。 当 前 的 查询 将 在 适当 的 位 置 被 修改 来 使 
用 这 个 表 的 结果 。 这 种 策略 使 我 们 能 够 同时 执行 主 查 询 和 “ 子 树 查 询 "， 并 仍然 保留 正确 
的 操作 语义 。 

我 们 希望 通过 对 比 执行 代价 来 选择 可 执行 的 子 树 。 通 常情 况 下 ， 所 有 重新 调度 决策 是 
在 优化 阶段 提前 生成 的 ， 这 些 决 策 被 编码 成 规则 并 在 运行 阶段 执行 ， 决 策 也 要 指定 当 流 水 
线 阶段 停止 时 哪 一 个 子 树 将 被 激活 参与 查询 执行 。 只 需要 对 优化 器 现 有 结构 稍 做 修改 即 可 
完成 上 述 策略 : 优化 器 对 每 一 个 子 树 的 执行 代价 和 基数 进行 估算 ， 并 评估 重新 调度 的 代 
价 ， 它 还 必须 考虑 对 表 进 行 物化 和 读 取 物化 表 所 需要 的 代价 。 用 于 替换 的 可 运行 子 树 根 据 
各 自 的 执行 效率 而 被 优先 考虑 : 执行 效率 主要 考虑 替换 现 有 查询 计划 所 节省 的 代价 和 将 其 
作为 独立 查询 执行 并 物化 其 结果 所 需 代价 的 比值 。 直 观 地 看 ， 最 有 效 的 可 执行 子 树 是 需要 
少量 物化 数据 或 者 物化 当前 查询 已 经 物化 的 数据 。 

重新 调度 策略 可 以 用 下 面 的 实例 规则 对 其 进行 编码 。 

on waiting(op1,100msec) if true then reschedule(op2) 

目前 的 研究 工作 表明 ， 当 查询 执行 过 程 涉 及 多 个 流水 线 操作 阶段 时 ， 这 种 重新 调度 的 策 
略 对 查询 处 理 的 加 速效 果 非 常 显 著 。 我 们 注意 到 ， 在 选择 -投影 -连接 查询 中 ， 流水线 散 列 
连接 用 到 重新 调度 策略 的 机 会 比较 少 ; 但 聚集 查询 或 流水 线 散 列 连接 在 查询 执行 过 程 中 可 能 
会 遇 到 可 用 内 存 空 间 不 足 等 情况 ， 此 时 重新 调度 便 成 为 解决 这 一 问题 的 一 个 重要 技术 。 


8.7.2 处 理 流水 线 操作 结束 时 突 发 的 基数 问题 


即使 在 数据 集成 环境 下 ， 查 询 执 行 计划 有 时 会 被 分 为 多 个 流水 线 处 理 阶段 ， 可 能 的 原 
因 包 括 内 存 不 足 、 如 聚集 这 样 的 阻塞 操作 等 。 在 每 个 流水 线 阶段 结束 时 ， 查 询 处 理 器 都 会 
判别 整个 查询 计划 是 否 如 预期 地 执行 ， 如 果 查 询 计划 没有 按 预期 计划 执行 ， 那 么 就 会 终止 
剩 下 的 计划 并 重新 调度 。 事 实 上 ， 选 择 使 用 什么 样 的 替代 方案 进行 重新 优化 也 要 付出 一 定 
的 代价 。 

查询 中 重 优化 (mid-query reoptimization) 技术 基于 运行 时 统计 、 启 发 式 、 代 价 估计 等 
因素 的 综合 考虑 以 确定 重新 优化 查询 计划 剩余 的 流水 线 阶段 是 否 对 查询 处 理 有 利 。 该 技术 
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有 3 个 基本 组 成 部 分 : 拓展 查询 计划 收集 信息 的 能 力 (这 样 查询 进展 就 可 以 得 到 监测 ); 
优化 器 预 设 配 置 以 决定 哪个 重新 优化 策略 将 被 触发 ， 如 果 有 必要 ， 查 询 中 重 优化 技术 需要 
重启 处 在 运行 时 的 优化 器 得 到 一 个 新 的 查询 计划 。 接 下 来 我 们 将 依次 讨论 这 3 面 的 问题 。 


tei NSE AE MRTE 

在 传统 查询 引擎 中 这 种 操作 始终 是 “ 悄 无 声息 ”地 工作 ， 它 们 不 提供 对 已 经 收 到 了 多 
少数 据 、 数 据 分 布 等 情况 的 反馈 。 一 个 自 适应 的 查询 处 理 器 需要 提供 用 于 监测 状态 的 机 
制 ， 这 是 必 不 可 少 的 。 

一 般 情 况 下 ， 信 息 收 集 查询 操作 主要 有 两 种 形式 。 首 先 ， 每 个 操作 可 以 跟踪 自己 的 状 
态 信息 并 应 要 求 返 回 这 些 信 息 。 最 常见 的 状态 信息 是 每 个 操作 符 已 经 处 理 了 多 少 元 组 。 虽 
然 监测 这 些 状态 信息 需要 每 个 操作 增加 维护 基数 信息 的 开销 ， 但 是 这 样 的 操作 使 获取 确切 
基数 的 可 能 性 变 大 (也 包括 选择 率 )。 其 他 类 型 的 信息 可 能 包括 执行 状态 (打开 、 关 闭 、 
失败 ) ， 也 可 能 是 内 存 消耗 信息 。 

男 一 种 信息 是 摘要 信息 ， 比 如 ， 数 据 流 中 某 些 属性 上 的 直方 图 或 概要 信息 。 这 些 摘要 
信息 是 由 优化 器 添加 到 查询 计划 中 的 统计 收集 操作 来 完成 。 放 置 和 使 用 这 些 操作 通常 相当 
棘手 : 收集 统计 数据 信息 的 代价 通常 比较 昂贵 ， 并 且 摘 要 信息 通常 要 等 包含 统计 收集 操作 
的 流水 线 操作 完成 后 才能 使 用 。 因 此 ， 优 化 器 尝试 将 统计 收集 操作 放置 在 关键 属性 〈 例 
如 ， 连 接 键 ) 不 确定 以 及 查询 计划 中 很 多 部 分 需要 重新 优化 的 位 置 (也 就 是 ， 对 剩余 查询 
计划 的 重 优化 方案 尚未 开始 的 地 方 ) 。 


REN EAU BIE 

给 定 来 自 查询 计划 的 信息 〈 无 论 是 关于 操作 符 的 基数 信息 ， 还 是 来 自 于 收集 操作 符 
的 统计 信息 ) ， 查 询 引 擎 必须 能 够 做 出 决定 当前 查询 计划 的 执行 状态 是 不 是 可 接受 的 
( 即 ， 性 能 大 致 符合 基于 代价 优化 的 预测 ， 或 者 更 好 ) ， 或 者 是 否 有 必要 找到 一 个 新 的 
查询 计划 。 

为 了 更 改 查 询 计划 ， 必 须 将 正在 执行 的 流水 线 操作 结果 物化 到 磁盘 ， 然 后 重新 优化 查 
询 的 剩余 部 分 ， 并 执行 新 的 查询 计划 。 显 然 ， 这 为 查询 处 理 阶 段 增加 了 两 个 额外 的 开销 : 
物化 结果 的 读 / 写 操作 ; 启用 查询 优化 器 。 

触发 重 优化 的 前 提 是 优化 后 节省 的 查询 代价 高 于 启用 优化 器 重 优化 的 开销 。 当 然 ， 面 
临 的 挑战 是 在 运行 时 没有 简单 的 方法 来 估计 重 优 后 能 够 节省 多 少 代 价 : 这 需要 系统 必须 依 
靠 启发 式 算法 来 决定 何 时 重新 优化 。 

通常 情况 下 ， 优 化 的 代价 是 可 预测 的 ， 就 像 我 们 可 以 预测 物化 和 非 物化 一 个 查询 子 结 
果 的 代价 。 我 们 用 C 表示 综合 代价 。 如 果 1) 基于 在 运行 时 新 收集 的 统计 数据 预 估 的 代价 
超过 原 有 预 佑 代价 的 9, 倍 ; 2) 预测 的 未 执行 部 分 的 代价 超过 C 的 8, 倍 ， 那 么 优化 程序 
通常 会 被 重新 调用 。 


例 8. 3 ”针对 本 章 开头 给 出 的 SQL 查询 ， 图 8-8 描述 了 其 查询 中 重 优化 的 一 个 实例 。 
该 计划 被 分 成 两 个 流水 线 操作 ， 它 们 之 间 设 有 一 个 检查 点 。 第 一 个 流水 线 包含 流水 线 散 列 
连接 、 统 计 收集 器 和 两 个 选择 操作 。 第 一 个 流水 线 操作 结束 后 ， 检 查 点 操作 包含 如 下 的 规 
则 ， 如 果 估 计 的 基数 大 小 与 结果 差异 较 大 ， 则 它 调用 优化 器 重新 优化 后 续 部 分 。 
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onclosed(joinl) if card(join1) > (est_card(join1) * 1.5) then reoptimize 
如 果 第 一 个 连接 的 输出 没有 超过 预期 的 50% ， 那 么 第 二 
个 流水 操作 继续 执行 不 受 影响 。 否 则 ， 第 二 个 连接 被 重新 优 
化 〈 例 如 ， 由 于 内 存 不 足 ， 采 用 租 套 循环 连接 替代 流水 线 散 


Movie- 





列 连 接 来 处 理 临时 表 ) 。 <<< 
XE EAE HIE TIJE HA 

一 旦 触发 重新 优化 ， 就 需要 暂停 当前 正在 执行 的 计划 。 
这 需要 执行 以 下 步骤 : 


© 获取 流水 线 中 最 后 一 个 操作 的 输出 结果 并 作为 一 个 临 
时 表 物 化 到 磁盘 。 一 一 
© 重 写 原 来 的 SQL 查询 表达 式 0， 用 对 临时 表 的 引用 替 PHJoin Mie 
换 已 经 执行 的 查询 子 表 达 式 ， 封 装 Q 中 尚未 执行 的 操 
作 生成 新 的 查询 @ 。 StatColl avasturs>3 
© 优化 0'， 如 果 它 在 多 个 流水 线 处 理 阶 段 被 执行 ， 那 么 ee 
WY AE Ra Be TE EIA HN BET ER AE Al Bh OL BE. 
执行 新 计划 Q' 并 得 到 最 终 的 查询 结果 。 男 外 ， 一 个 可 优 。 Vor 
化 的 地 方 是 ， 在 触发 重新 优化 前 暂停 执行 原来 的 Q 查询 ， 而 
不 是 终止 它 。 然 后 ， 如 果 O 和 @ 的 代价 大 致 相同 ， 那 么 重新 Movie 








Reviews 





执行 0 会 比 开启 新 计划 0' 更 加 有 效 。 Paes 

如 果 在 查询 计划 中 有 多 个 流水 线 处 理 阶 段 ， 那 么 查询 中 检查 点 的 查询 实例 ， 
重 优化 方法 是 非常 有 用 的 。 然 而 ， 在 实践 中 许多 数据 集成 查 该 实例 中 包括 一 个 基 
询 是 完全 流水 线 模式 ， 这 使 得 该 技术 用 处 不 大 。 这 促 发 了 下 ima 
一 节 技术 的 产生 。 


8.8 性 能 驱动 的 自 适应 策略 


因为 数据 集成 环境 下 对 基本 表 不 能 做 出 很 好 的 基数 估计 ， 所 以 这 使 得 上 一 节 介 绍 的 技 
术 难 以 生效 : 它们 只 能 修改 查询 计划 中 不 是 正在 执行 的 流水 线 操作 的 那 部 分 内 容 。 由 于 数 
据 集成 查询 主要 采用 流水 线 散 列 连接 ， 所 以 它们 通常 只 能 有 一 个 流水 线 〈 后 面 可 能 紧 跟 着 
一 个 聚合 操作 ) 。 因 此 人 们 对 采用 自 适 应 技术 对 当前 执行 的 流水 线 操作 进行 查询 计划 优化 
问题 一 直 存 有 很 大 的 兴趣 。 

目前 数据 集成 中 的 所 有 自 适 应 查询 处 理 系 统 都 假设 过 去 的 查询 性 能 能 够 反映 未 来 的 性 
能 ， 并 由 此 推断 出 总 体 代价 和 基数 值 。 虽 然 这 种 启发 式 规则 可 能 会 被 数据 的 变化 误导 ,但 
事实 上 这 种 情况 在 现实 中 不 太 可 能 发 生 : 查询 的 主要 代价 来 自 于 连接 操作 ， 而 连接 大 都 是 
在 主键 和 外 键 间 进行 ， 这 可 以 从 侧面 证 明 查 询 执行 时 数据 虽然 有 扭曲 的 可 能 ， 但 其 输出 的 
大 小 具有 良好 的 界定 性 。 

其 背后 的 本 质 是 ， 所 有 这 些 技 术 都 利用 关系 代数 的 一 组 基本 性 质 ， 即 并 操作 对 选择 、 
投影 和 连接 操作 的 分 配 率 。 通 常 ， 对 于 由 m 个 表 做 任意 连接 的 查询 表达 式 ， 对 每 个 表 进 行 
划分 ， 并 对 每 个 划分 的 连接 查询 结果 做 并 操作 来 获得 最 终结 果 : 这 一 过 程 可 由 下 面 的 表达 
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式 来 描述 : 
Ili(oo(R i ~ R,) ) af 


其 中 RO 代表 关系 R 的 一 组 子 集 。 

该 属性 也 保证 了 流水 线 散 列 连接 算法 的 正确 性 。 在 R 和 R, 做 连接 操作 的 过 程 中 ， 
可 以 选择 读 取 R 然后 与 已 经 读 人 的 R, 数据 进行 探测 匹配 ， 也 可 以 选择 读 取 R, 然后 与 
已 经 读 和 的 R 数据 进行 探测 匹配 。 假 设 用 RY 代表 R 中 已 经 被 读 取 的 数据 ， 尼 RRR, 
中 已 经 被 读 取 的 数据 。 接 着 流水 线 散 列 连接 可 以 继续 从 R 的 第 二 个 子 集 RR 读 取 更 多 的 
元 组 ， 这 些 元 组 与 R 进行 连接 ， 用 代数 方法 执行 操作 (RD RD) U (RixwR2) 和 
(R URI) w RY， 它们 返回 相同 的 结果 。 类 似 地 ， 对 于 R, RIESS R A R 进 
行 连接 再 求 并 集 。 

我 们 可 以 进一步 利用 这 些 代数 等 值 式 来 增强 流水 线 间 (inter- pipeline) 的 自 适应 性 ， 
通过 变换 并 集中 的 查询 的 不 同位 置 来 对 每 一 个 联合 查询 进行 评估 。 换 名 话说， 不 同 的 组 合 
方式 可 能 由 不 同 的 查询 执行 计划 产生 。 

主要 问题 是 每 个 不 同 的 合 取 表 达 式 采用 什么 样 的 查询 计划 。 针 对 设计 中 不 同 的 选择 
点 ， 已 经 提出 了 多 种 不 同 的 自 适应 技术 。 我 们 主要 介绍 两 种 截然 不 同 的 技术 : eddy (ie 
法 ) ， 它 能 够 非常 频繁 地 使 用 自 适应 性 策略 ， 并 且 在 决策 制定 过 程 中 不 需要 使 用 代价 估计 ; 
HES if st (corrective query processing) ， 它 不 频繁 地 使 用 自 适应 性 ， 但 可 以 做 出 基于 
代价 的 决策 。 


8. 8.1 Eddy: 基于 队列 的 计划 选择 


传统 的 数据 库 管理 系统 的 查询 处 理 将 所 有 的 “智能 ”和 决策 信息 加 入 查询 优化 器 中 ， 
而 很 少 考虑 执行 引擎 的 “智能 化 ” 。 操 作 调 度 由 查询 计划 所 掌控 ， 具 体 表 现 为 一 元 和 二 元 
操作 构成 的 树 〈 有 时 也 可 能 是 一 个 有 向 无 环 图 ) 。 

eddy 策略 某 种 程度 是 传统 DBMS 查询 处 理 技术 的 另 一 个 极端 情况 : 该 优化 器 可 做 的 决 
策 非 常 有 限 ， 只 能 执行 非常 高 层 的 基于 启发 式 的 查询 重 写 ， 但 是 它 可 以 将 选择 -投影 - 连 
接 (SPJ) 中 所 有 操作 的 顺序 决策 推迟 到 查询 执行 阶段 。 将 每 个 SPJ 表达 式 编 人 一 个 称 为 
Pe (eddy) 的 “超级 操作 符 ” 中 。 

eddy 的 功能 主要 由 一 个 元 组 路 由 器 (tuple router) 组 件 和 一 个 或 多 个 子 操作 组 成 。 子 
操作 包括 选择 和 投影 操作 ， 以 及 封装 连接 功能 的 组 件 (存储 子 表达 式 的 状态 以 及 探测 其 他 
子 表达 式 的 状态 )。 元 组 通过 不 同 的 输入 方式 送信 eddy。 这 些 元 组 都 用 特定 的 布尔 型 变量 
done 做 标记 ， 每 一 个 对 应 于 一 个 查询 计划 操作 ， 用 于 跟踪 查询 的 进展 。 对 于 初始 传人 的 元 
组 ， 所 有 标记 位 都 被 清除 。 

每 个 子 操作 都 有 一 组 策略 规则 来 描述 哪些 执行 标记 需要 被 设置 或 清除 ， 以 便 让 子 操作 
能 够 接收 元 组 。 如 果 元 组 对 应 的 某 一 子 操作 。 的 标志 位 被 设置 ， 那 么 相关 子 操作 o 将 不 会 
再 接受 该 条 元 组 : 这 说 明 被 标记 的 操作 表示 已 经 对 该 元 组 进行 了 处 理 。 此 外 ， 有 时 子 操作 
对 处 理 元 组 顺序 也 会 存在 依赖 关系 ， 一 个 子 操作 可 能 拒绝 接受 一 个 元 组 ， 直 至 该 元 组 已 先 
由 其 他 子 操作 处 理 。 


TCC (RY wee Rr))) 
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当 一 个 元 组 被 送 入 eddy 时 ， 它 的 元 组 路 由 器 通常 会 在 几 个 能 够 接受 该 元 组 的 目标 子 
操作 中 做 出 选择 。 它 使 用 路 由 策略 从 这 些 子 操作 中 选择 合适 的 目标 子 操作 ， 并 将 传人 的 元 
组 发 送 到 相应 的 子 操作 。 这 些 子 操作 o 产生 的 所 有 输出 元 组 其 子 操作 标志 位 被 设置 为 真 ， 
并 保留 输入 元 组 的 其 他 标志 位 ; 然后 这 些 设 有 标记 的 元 组 会 被 发 回 给 eddy。 接 下 来 ，eddy 
会 查阅 那些 愿意 接受 输入 元 组 的 子 操 作 ，eddy 重复 执行 上 述 过 程 。 一 旦 一 个 元 组 的 所 有 位 
都 被 标记 ， 它 将 作为 eddy 的 输出 结果 。 


例 8.4 图 8-9 是 eddy 策略 对 应 的 一 个 SQL 查询 (本章 开 头 重复 提 到 的 实例 ) 。 

a a Revi ews R 

WHERE M.title = P.movie AND M.title = R.movie AND 

P.location="New York” AND M.actor="Morgan Freeman” AND 

R.avgStars >= 3 

不 同 的 查询 操作 (选择 和 流水 线 散 列 连接 ) 均 视 为 子 操作 〈(o…os) ， 将 核心 路 由 器 
分 配给 位 于 eddy 中 间 位 置 的 “R” 节 点 。 路 由 约束 由 连接 在 “R” 节 点 数据 源 和 子 操作 来 
表示 。 每 个 输入 eddy 的 元 组 被 路 由 到 一 个 子 操作 ; 返回 的 结果 被 反馈 到 eddy。 一 旦 操作 
0, 成 功 完成 ， 由 o 输出 元 组 的 第 i 个 操作 标志 位 将 被 设置 ， 当 元 组 的 所 有 标志 位 都 被 设置 
后 ， 它 将 由 eddy 输出 。 
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图 8-9 一 个 eddy 查询 实例 ， 图 中 包括 元 组 路 由 器 (R) ， 一 系 
列子 操作 〈o) ， 以 及 每 个 连接 操作 需要 的 散 列 表 <<< 


如 果子 操作 包括 选择 、 投 影 和 状态 连接 操作 ， 那 么 基于 关系 代数 分 配 律 特性 ，eddy 可 
以 确保 操作 的 正确 性 。eddy 策略 存在 的 主要 问题 是 选择 什么 策略 以 确定 调度 次 序 。 


AER Heddy Ri: RRR” A 

彩票 调度 方案 基于 多 个 观察 。 一 般 情 况 下 ， 因 为 其 代价 太 高 ， 所 以 不 能 实现 在 逐个 元 
组 的 基础 上 对 所 有 候选 查询 计划 的 执行 代价 进行 对 比 。 然 而 ， 在 其 他 条 件 (特别 是 选择 
R) 基本 相同 的 情况 下 ， 我 们 直观 上 更 愿意 将 元 组 传送 给 执行 速度 快 的 子 操 作 ; 或 者 在 其 
他 代价 (特别 是 计算 代价 ) 基本 相同 的 情况 下 ， 发 送 给 选择 性 高 的 操作 。 

就 像 下 面 分 析 的 那样 ， 元 组 路 由 器 把 元 组 发 送 给 执行 速度 快 的 子 操作 。 如 果 我 们 为 每 
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个 子 操作 都 设置 一 个 队列 ， 那 么 速度 慢 的 子 操作 的 队列 将 很 快 会 被 填 满 。 而 速度 快 的 子 操 
作 将 不 会 很 快 被 填 满 。eddy 的 元 组 路 由 器 只 会 将 元 组 发 送 给 非 空 队列 ， 因 为 来 自 队 列 的 背 
压 (back pressure) 会 使 eddy 选择 快速 执行 的 子 操作 。 

通过 一 个 随机 化 模式 对 上 述 策略 进行 扩展 就 可 以 使 eddy 将 元 组 传递 给 选择 性 高 的 操 
作 。 每 次 当 子 操作 从 元 组 路 由 器 中 接收 一 个 元 组 时 ， 它 将 获得 一 “ 票 ”"， 当 它 向 元 组 路 由 
器 输出 一 个 元 组 时 ， 它 就 失去 一 “ 票 ” 。 元 组 路 由 器 通过 实施 “彩票 ”策略 为 元 组 选择 下 
一 个 有 资格 处 理 某 元 组 的 子 操作 。 

彩票 调度 路 由 策略 会 增加 部 分 系统 开销 ， 但 可 以 非常 有 效 地 确定 一 个 非常 好 的 谓词 
选择 次 序 。 但 是 ， 它 在 处 理 连接 操作 时 会 有 一 些 问 题 : 随 着 时 间 的 推移 选择 率 往 往 会 减 
少 ， 因 为 越 来 越 多 的 元 组 被 连接 “发 现 ” 并 添加 到 其 内 部 散 列表 中 。 彩 票 方 案 在 连接 
操作 早期 往往 会 高 估 选 择 率 。 因 此 ， 这 会 导致 eddy 策略 将 元 组 传递 给 连接 操作 ， 但 事 
实 上 它 应 该 将 元 组 先 发 送 给 选择 操作 一 一 连接 操作 会 产生 数量 庞大 的 中 间 结 果 。 在 后 续 
的 查询 中 ， 从 其 他 数据 源 传递 过 来 的 元 组 不 得 不 与 这 些 中 间 结 果 进 行 连接 。 这 会 增加 整 
个 查询 的 代价 ， 而 如 果 先 做 选择 操作 ， 那 么 这 些 代价 是 可 以 避免 的 (因为 这 样 连接 生成 
的 中 间 结 果 会 少 很 多 ) 。 


H Æhjeddy JR: 状态 模块 

原始 的 eddy 方案 存在 一 些 缺陷 : 它 不 能 反映 出 连接 操作 符 的 “状态 ”属性 。 例 如 ， 
连接 操作 输出 的 元 组 数量 会 随 着 输入 元 组 的 不 断 消耗 而 有 所 增加 。 状 态 模 块 (也 叫做 
STeM)“ 分 解 ” 连 接 操作 的 内 部 功能 使 eddy 可 以 更 好 地 跟踪 查询 行为 。STeM 为 eddy 策略 
中 的 每 一 个 连接 操作 分 配 两 个 子 操作 : 一 个 用 于 维护 状态 ; 另 一 个 探测 连接 操作 关联 的 另 
一 张 关 系 表 的 状态 。 现 在 即将 到 达 的 元 组 必须 经 过 状态 和 探测 两 个 子 操作 ， 并 通过 某 种 方 
式 确 保 产 生 所 有 的 结果 : 这 使 得 SteM 必须 通过 一 系列 复杂 的 规则 完成 元 组 在 eddy 策略 中 
的 换 入 与 换 出 操作 。 关 于 STeM 的 详细 介绍 可 以 参阅 本 章 参 考 文献 注释 。 


IRATE Eddy : STAIR 

无 论 原始 的 eddy 方法 或 还 是 SteM， 它 们 都 假设 对 当前 操作 选择 率 的 预测 能 够 用 来 对 
后 续 操 作 的 选择 率 进行 评估 。 但 事实 上 ， 连 接 操作 本 身 未 必 满 足 这 一 假设 在 查询 处 理 初 
期 ， 连 接 操作 具有 很 强 的 选择 性 ,但 是 随 着 连接 状态 的 不 断 丰 富 ， 它 们 可 以 选择 的 空间 越 
来 越 少 。 极 端 情况 下 ， 在 查询 初始 阶段 ， 连 接 最 初 根本 不 产生 任何 结果 ,但 随后 产生 大 量 
的 元 组 。 此 时 ，eddy 可 能 会 被 “误导 ”而 以 次 优 的 方式 处 理 后 续 连 接 状 态 ， 也 就 是 说 ， 
一 旦 状态 在 某 个 子 操作 建立 起 来 ，eddy 会 让 每 一 个 后 续 到 达 的 元 组 都 对 它 进行 探测 。 

STAIR 策略 通过 “ 拆 解 ”eddy 并 将 中 间 状 态 移 动 到 其 他 子 操作 (在 这 个 过 程 中 可 能 
被 过 滤 ) 的 方式 来 解决 上 述 问题 。STAIR 会 因 一 些 无 用 操作 而 增加 一 些 开销 ,但 是 与 将 中 
间 状 态 放置 在 次 优 位 置 相 比 ， 它 的 代价 是 比较 小 的 。 关 于 STAIR 的 更 多 详细 信息 ， 请 参阅 
本 章 结 尾 的 参考 文献 注释 。 


8.8.2 校正 查询 处 理 : 基于 代价 的 重新 优化 
eddy 执行 连续 的 查询 重 优化 策略 ， 它 采用 的 一 个 数据 流 启 发 性 策略 虽然 增加 了 一 些 元 
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组 操作 的 开销 ， 但 可 以 同步 地 持续 探索 可 替代 查询 计划 。eddy 一 般 会 避免 “最 坏 情 况 ” 
下 的 查询 性 能 ， 但 需要 花费 大 量 时 间 “ 探 索 ” 可 供 选 择 的 方案 。 因 此 ， 相 应 地 它 比 传统 查 
询 引 擎 提供 更 少 的 资源 用 于 探索 〈 提 供 峰 值 性 能 ) 。 
校正 查询 处 理 (Corrective Query Processing，CQP) 的 目标 是 尽 全 力 获 取 查 询 结果 ， 而 
不 是 探索 潜在 的 更 好 的 查询 计划 。 它 只 是 被 动 地 发 现 性 能 糟糕 的 计划 并 进行 简单 的 校正 ， 
而 不 是 积极 主动 地 寻找 更 好 的 计划 。 与 eddy 采用 本 地 启发 式 规则 策略 不 同 ，CQP 对 查询 
进程 和 潜在 的 好 的 查询 计划 进行 基于 代价 的 评估 。 为 了 便于 COP 的 执行 ， 随 着 查询 的 继 
续 执 行 ， 查 询 处 理 器 启用 一 个 低 优先 级 的 后 台 线 程 基于 最 新 的 运行 统计 信息 定期 地 返回 查 
询 优 化 器 的 代价 估算 结果 。 如 果 优 化 器 找到 一 个 可 以 极 大 地 改善 查询 性 能 的 计划 ， 它 就 停 
止 当前 执行 的 查询 计划 ， 人 允许 该 计划 切换 到 一 致 的 查询 状态 (在 这 个 状态 下 ， 查 询 计划 包 
括 阻塞 操作 在 内 的 所 有 计算 都 已 经 在 读 人 的 源 数据 上 执行 )， 并 用 前 面 描 述 的 自 适应 机 制 
将 处 理 进程 切换 到 新 发 现 的 计划 。 新 计划 在 此 前 的 计划 停止 位 置 接受 输入 数据 流 继续 操 
作 。 计 划 切 换 操作 可 能 不 止 一 次 ， 每 一 次 切换 都 标记 为 一 个 阶段 。 最 后 ， 系 统 执行 一 个 颖 
合 阶 段 (stitch-up phase) 对 前 面 各 阶段 的 数据 汇总 得 到 结果 数据 。 


例 8.5 如 图 8-10 所 示 ， 给 定 实例 中 查询 请 求 和 一 组 原始 的 统计 信息 ， 查 询 优化 器 可 
以 从 图 中 左边 的 计划 开始 执行 ， 也 就 是 先 对 Movie (M) 和 Reviews (R) 进行 连接 ， 这 里 
我 们 把 这 一 阶段 标记 为 阶段 0。 


阶段 0 


osorsotosarte ostirs noiria rit aN 


== R' 





== |= M .title= PHJoin M.title= | StJoin M.title= 


| opopo | 

as | R.movie | R.movie ha! ; 
| | "Wi 

全 m Jp reas | = 







Fn Z PHJoin M.title= StJoin M.title= EXCEPT 
k movie P.movie LON M'P' 
pP 


= 


AA A | 


所 favgStars>3 
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图 8-10 校正 查询 处 理 实例 ， 处 理 流 程 包括 两 阶段 连接 和 一 个 缝合 阶段 


与 传统 的 查询 处 理 器 不 同 ， 基 于 CQP 的 查询 处 理 器 持续 监测 计划 的 执行 。 随 着 统计 
数据 的 收集 和 代价 的 重新 估计 ， 后 台 查 询 优化 器 会 被 触发 以 确定 可 能 的 最 优 蔡 代 方案 。 当 
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第 一 个 阶段 的 计划 执行 完毕 后 ， 新 的 阶段 1 启动 ， 也 就 是 在 图 的 中 间 对 表 Movie 和 Plays 
做 连接 。 新 的 计划 处 理 其 余 三 个 数据 源 的 数据 : 每 个 阶段 都 会 处 理 基 础 数据 中 没有 做 连接 
的 那 部 分 数据 。 这 里 把 关系 R 的 第 一 个 子 集 标记 为 R ， 第 二 子 集 标记 为 尺 。 
将 阶段 0 和 阶段 1 的 查询 结果 进行 合并 只 得 到 结果 数据 的 一 部 分 。 还 必须 组 合 所 有 阶 
段 对 关系 的 执行 ， 并 将 查询 结果 传递 给 分 组 操作 。 为 了 表述 简单 ， 我 们 省 略 了 连接 式 的 下 
标 ， 剩 下 的 连接 表达 式 为 ; 
(R° x P’ R!) U (R° P's R) U (R »P'»R') U 
(R' » P’ m R°) U (R'» P’ x R') U (R'™P! R) 
只 有 对 最 后 表达 式 进 行 评估 ， 也 就 是 我 们 所 说 的 缝合 阶段 ， 查 询 才 算 完成 。 这 一 过 程 
由 最 后 一 个 查询 计划 执行 ， 此 时 调用 一 个 特殊 的 缝合 连接 操作 符 (StJoin) 来 读 取 先 前 执 
行 计划 产生 的 中 间 结 果 的 散 列 表 ， 并 用 散 列 表 与 后 续 结果 进行 探测 来 产生 剩余 的 查询 结 
果 。 颖 合 过 程 会 遍历 散 列表 并 将 各 个 阶段 的 查询 结果 连接 起 来 。 为 了 避免 产生 重复 的 结 
果 ， 系 统 会 给 缝合 连接 进程 提供 那些 散 列表 目前 没有 被 重新 连接 过 的 信息 (一 个 “除外 ” 
列表 ) 。 <<< 


CQP 也 遇 到 一 些 关键 技术 的 挑战 ， 首 先是 如 何在 流水 线 查 询 执行 过 程 中 为 查询 引擎 补 
充 代价 估计 和 重新 优化 等 信息 ， 以 及 如 何 生 成 缝合 计划 。 


Ot Ea htt 

校正 查询 处 理 方法 执行 的 前 提 是 频繁 地 对 查询 计划 执行 代价 重新 评估 。 随 着 聚集 操作 
性 能 越 来 越 突出 ， 查 询 计划 的 状态 通常 每 隔 几 秒 就 会 被 探 询 。 在 状态 被 探 询 期 间 ， 系 统 必 
须 确定 : 1) 查询 处 理 中 的 其 余部 分 将 如 何 继续 进行 (尤其 是 ， 如 果 数 据 源 的 基数 是 未 知 
的 ); 2) 替代 查询 计划 的 执行 代价 和 选择 率 。 

给 定 了 从 当前 执行 计划 获取 的 基数 和 选择 度 信息 ， 查 询 处 理 器 必须 意识 到 当前 计划 只 
探索 了 (指数 级 ) 搜索 空间 的 一 小 部 分 ， 只 能 给 出 少量 的 真实 信息 。CQP 利用 了 等 价 子 
表达 式 (与 查询 计划 无 关 ) 总 是 有 相同 的 基数 和 选择 度 这 一 特点 。 即 便 是 发 现 了 这 个 规 
律 ， 搜 索 空间 仍然 很 大 ，CQP 代价 估计 器 必须 利用 各 种 启发 式 规则 对 尚未 尝试 执行 的 子 表 
达 式 的 选择 度 做 出 估计 。 

通常 ， 如 果 重 新 估计 代价 在 原 有 代价 的 一 个 小 的 冰 值 范围 内 ， 则 重新 优化 不 必 执 行 ， 
即 不 必 探 索 潜在 的 查询 空间 。 反 之 ， 如 果 代 价 超过 已 有 的 阔 值 ， 重 优化 操作 将 被 触发 。 


EM 

相 比 于 查询 中 重新 优化 等 方法 ，CQP 中 的 查询 优化 器 运行 “边缘 化 ”的 查询 引擎 。 
COP 优化 器 可 以 仿照 任何 已 有 的 查询 优化 模型 : 基于 启发 式 规则 、 随 机 优化 、 动 态 规划 ， 
或 内 存 自 上 而 下 优化 等 都 是 可 以 用 的 。CQP 是 一 个 自 上 而 下 带 记 忆 功 能 的 架构 ， 采 用 全 
(浓密 的 ) 枚 举 替 代 连 接 树 。 该 技术 的 关键 是 优化 器 能 够 接收 查询 运行 修改 后 的 代价 估计 ， 
以 及 每 个 表 目 前 已 经 有 多 少 元 组 被 处 理 等 信息 : 这 样 做 的 目的 是 推断 执行 剩余 查询 的 
代价 。 

改变 原 计划 会 对 重 优化 产生 额外 的 代价 ， 因 为 对 原 计划 进行 缝合 操作 更 加 有 效 ( 因为 
所 有 的 子 表 达 式 都 是 兼容 的 ) 。 这 些 代 价 通常 是 由 于 启发 式 规则 而 产生 的 ， 因 为 系统 不 知 
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道 缝合 计划 的 代价 是 什么 ， 或 者 是 否 会 有 新 增 的 查询 执行 阶段 。 


ERER TTL 

一 且 基 本 的 查询 执行 完成 ， 如 果 有 多 个 查询 处 理 阶 段 ， 那 么 缝合 计划 必须 将 此 前 被 划 
分 为 不 同 的 计划 数据 整合 在 一 起 。 总 的 来 说 ， 对 于 由 m 个 关系 并 分 散 成 nn 个 计划 的 连接 操 
作 ， 需 要 缝合 计划 做 n" -n 次 合并 。 

每 个 查询 处 理 校正 计划 必须 在 叶子 端 缓存 输入 给 它 的 源 数据 ， 这 样 数据 可 以 被 其 他 
计划 获取 以 完成 连接 操作 ， 这 一 点 与 流水 线 散 列 连接 操作 吻合 。 事 实 上 ， 因 为 大 多 数 数 
据 集 成 系统 几乎 完全 依靠 流水 线 散 列 连接 ， 所 以 这 一 要 求 基本 上 都 可 以 达到 。 其 他 的 连 
RRE (REHA, EERI MHF AJ) 必须 要 进行 扩展 才能 满足 缓存 数据 这 一 
要 求 。 

校正 查询 处 理 时 可 以 有 几 个 选择 进行 交叉 阶段 连接 以 获得 完整 查询 结果 ， 这 其 中 也 包 
括 每 次 校正 查询 处 理 在 执行 交叉 连接 来 生成 完整 的 查询 结果 时 可 以 有 多 个 选择 。 每 次 改变 
已 有 查询 计划 时 也 会 有 多 个 选择 。 现 有 的 方法 是 在 之 前 的 计划 已 经 完成 后 ， 将 缝合 阶段 的 
计算 操作 推迟 到 最 后 执行 ， 就 像 前 面 给 出 的 查询 实例 那样 。 

缝合 计划 可 以 单独 地 根据 存储 在 散 列 表 中 的 信息 进行 操作 ， 这 些 散 列表 是 由 以 前 各 个 
阶段 的 操作 产生 的 。CQP 是 通过 现 有 的 散 列 表 扫 描 获 得 数据 源 的 元 组 ， 而 不 是 从 源 上 重新 
扫描 输入 。 查 询 优化 器 在 确定 最 佳 查询 计划 时 会 考虑 现 有 的 全 部 状态 以 便 充 分 利用 当前 的 
这 些 散 列表 一 一 这 些 散 列表 可 以 是 在 探查 阶段 建立 的 ， 也 可 以 是 在 扫描 输入 阶段 建立 的 。 

对 于 每 一 个 连接 操作 ，CQP 估计 生成 不 可 用 中 间 结 果 的 查询 表达 式 的 执行 代价 ， 而 
不 是 估计 所 有 查询 结果 的 代价 。 接 下 来 ， 优 化 程序 创建 一 个 独占 列表 来 指定 哪些 子 表达 式 
已 计算 ， 哪 些 可 以 重复 使 用 ， 哪 些 不 应 该 重新 计算 。 

最 后 ，CQP 采用 一 个 专用 的 连接 操作 来 有 效 地 整合 来 自 多 个 现 有 散 列 表 的 元 组 ， 并 增 
加 关联 信息 来 去 除 重复 的 数据 。 颖 合 连接 操作 依据 查询 优化 器 提供 的 独占 列表 ( 比如 在 例 
8.6 F, CO 不 会 重新 生成 RwP") 和 一 系列 包含 可 重复 使 用 数据 的 状态 结构 开始 执行 。 
缝合 连接 操作 遍历 现 有 的 状态 结构 组 合 ， 并 从 结构 级 判断 (而 不 是 元 组 级 ) 这 样 的 组 合 是 
否 在 独占 列表 中 ， 或 者 需要 生成 。 此 外 ， 它 同时 判断 哪些 状态 结构 应 该 用 来 扫描 元 组 ， 哪 
些 需 要 再 次 探测 。 为 了 满足 性 能 需要 ， 它 依据 连接 键 对 这 些 结构 重新 构建 散 列表 。 最 后 ， 
缝合 连接 操作 结合 其 输入 的 数据 和 现 有 的 状态 结构 ， 检 查 每 个 元 组 是 否 应 该 创建 。 最 终 的 
结果 是 一 个 可 以 产生 更 高 效 精确 结果 的 操作 。 


例 8.6 如 图 8-10 Prax, 缝合 连接 (StJoin) 操作 符 从 前 一 阶段 生成 的 散 列表 来 重用 
数据 ， 这 可 以 避免 重复 元 组 的 创建 。 底 层 StJoin 需要 创建 所 有 在 M ™ P 过 程 中 遗漏 的 元 
组 ,这些 元 组 包括 M P, M' x P 和 M? x P!, 但 不 包括 有 Mw P!。 为 了 做 到 这 一 点 ， 我 
MRE M. M, P. P 创建 的 散 列表 并 把 它们 附加 到 缝合 连接 操作 ,缝合 连接 操作 读 
RP? 并 将 它 与 MM 和 MM' 做 连接 ， 它 也 需要 读 取 Mo 并 与 P' 表 连 接 。 

第 二 个 缝合 连接 操作 与 第 一 个 相似 ， 它 的 散 列表 存 有 M x P' 连接 产生 的 元 组 ， 并 从 


日 ”因为 它 只 考虑 我 们 当前 查询 的 一 部 分 中 间 结 果 ， 并 且 这 样 的 结果 只 是 所 需要 的 所 有 数据 的 一 个 子 集 ， 这 个 
问题 比 在 第 2 章 中 讨论 的 使 用 物化 视图 来 优化 的 方法 要 简单 些 。 
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它 的 孩子 表达 式 中 读 取 M xP 连接 后 剩余 的 元 组 。 它 也 会 从 初始 阶段 创建 的 散 列表 读 取 RP 
的 元 组 。 除 了 之 前 已 经 输出 的 元 组 外 ， 第 二 个 连接 会 把 所 有 的 元 组 组 合 进行 连接 。 <<< 


为 了 总 结 性 能 驱动 的 自 适 应 技术 与 其 他 技术 的 关键 区 别 ， 校 正 查询 处 理 采 用 较为 保守 
的 基于 代价 的 方法 修改 查询 计划 ， 如 果 计 划 执 行情 况 良好 ， 这 种 策略 会 对 查询 执行 代价 有 
轻微 的 影响 。Eddy 采取 基于 数据 流 的 方法 来 确定 查询 操作 符 的 顺序 ， 并 且 不 断 地 探索 替 
代 计 划 。CQP 方法 也 许 更 适合 选择 度 最 初 是 未 知 而 整个 查询 过 程 中 比较 稳定 的 情况 ， 而 
eddy 策略 则 更 适合 选择 度 经 常 变化 的 情况 。 


参考 文献 注释 


文献 [121，318 | 描述 了 两 个 优秀 的 传统 查询 优化 方法 。 文 献 对 如 何 执行 计划 枚 举 、 修 
剪 搜 索 空 间 的 各 种 试探 方法 ， 以 及 使 用 直方 图 和 其 他 技术 来 估算 基数 都 做 了 详细 的 描述 。 
文献 [263 ] 对 查询 执行 做 了 一 个 补充 性 综述 ， 文 章 对 基本 操作 设计 的 索引 、 散 列 以 及 基于 
迭代 的 策略 都 做 了 介绍 。 

分 布 式 数据 库 系 统 研究 甚至 比 关 系 型 数据 库 管 理 系统 更 早 ， 比 如 Distributed Ingres 
[530] 和 R*[405 |] 工程 。 第 一 个 联邦 数据 库 Multi-base 也 可 以 追溯 到 同一 时 期 [525 ] 。 也 许 
最 雄心 勃勃 的 分 布 式 (和 联邦 ) DBMS 是 Mariposa[ 532 ] ， 它 尝试 从 经 济 学 角度 使 用 简单 
的 技巧 以 便 确定 数据 存放 并 在 何 地 做 数据 计算 。 这 些 想 法 随后 被 提炼 至 更 高 版 本 的 系统 ， 
其 中 也 包括 数据 集成 系统 。 

布 隆 过 滤器 实际 上 是 以 发 明 者 的 名 字 命 名 的 [90] 。 最 早 的 分 布 式 查询 处 理 文 献 [73， 
161, 404 | 在 讨论 查询 执行 算法 时 就 含有 布 隆 连 接 和 双向 半 连 接 算 法 。 文 献 综 述 [350] 和 教 
材 [471] 对 分 布 式 查询 处 理 进行 了 较为 全 面 的 概述 。 最 近 的 一 些 研究 工作 甚至 考虑 了 分 布 
式 处 理 环境 下 的 相关 子 查询 [328 ] 和 递归 处 理 [395 ] 技 术 。IBM Almaden 研究 中 心 的 Garlic 
系统 采用 先进 的 包装 器 代价 模型 对 查询 优化 工作 做 了 大 量 研究 [281 ，498 ] Garlic 是 建立 
在 Starburst 引 警 (DB2 UDB 研发 版 本 ) 基础 上 的 一 个 数据 集成 系统 。 系 统 关注 的 重点 是 
扩展 优化 器 以 便 处 理 异 构 数 据 源 〈 包 括 非 关系 的 ) 。 相 比 于 我 们 本 章 讨 论 的 大 多 数 技术 ， 
Garlic 对 公司 内 部 网 的 企业 信息 集成 CEM) 处 理 比较 注重 。 如 今 ，SGarlic 的 许多 应 用 已 经 
实施 到 IBM’s InfoSphere 系列 产品 中 。 

自 适应 查询 处 理 在 传统 的 数据 库 、 数 据 流 和 数据 集成 领域 一 直 是 研究 的 热点 。 两 篇 该 
领域 的 文献 综述 出 现在 [48，172] 中。 这 些 文献 对 传统 数据 库 系 统 中 重新 优化 和 执行 等 基 
础 性 技术 做 了 详细 描述 ， 建 立 更 强大 的 查询 计划 技术 在 文献 [46，138，319 ] 也 有 表述 。 文 
献 L[44，171，490] 对 Eddy 及 其 变种 STeM 和 STAIR 进行 了 人 研究。 文献 [547 ] 已 经 将 eddy 
扩展 到 分 布 式 领域 。[ 326 | 提出 了 校正 查询 处 理 技 术 ， 另 一 个 和 它 密切 相关 的 技术 ， 称 为 
CAPE 的 技术 出 现在 [499 ] 中 。 在 流 查询 处 理 方 面 ， 关 于 本 地 调度 的 自 适应 技术 在 文献 
[47，543 ，552] 中 提出 ， 而 最 小 化 内 存 使 用 的 研究 则 出 现在 文献 [45，50] 中。 文献 [49 ] 
讨论 了 调度 和 上 自 适应 重 排 窗口 操作 策略 。 

随 着 网 络 带宽 的 增加 ， 互 联网 延迟 估计 技术 不 再 具有 挑战 性 ， 因 此 由 于 路 由 争 用 引发 
的 延迟 在 减少 。 互 联网 评测 领域 在 预测 延迟 以 及 互联 网 基础 设施 测量 等 方面 做 出 了 重要 的 
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包 Ban 


包装 器 是 数据 集成 系统 中 负责 与 数据 源 交 互 的 组 件 。 其 任务 包括 将 来 自 数据 集成 系统 
上 层 的 查询 发 送 给 数据 源 ， 然 后 将 结果 转换 成 查询 处 理 器 可 以 处 理 的 格式 。 包 装 器 的 复杂 
性 取决 于 数据 源 自身 的 特点 。 最 简单 的 情况 是 ， 如 果 数 据 源 是 一 个 关系 数据 库 系 统 ， 则 包 
装 器 的 任务 就 相对 比较 简单 ， 可 能 仅仅 包含 与 JDBC 驱动 器 的 交互 (不 可 和 否认， 这 通常 比 
你 想象 的 难 ) 。 在 复杂 的 情况 下 ， 包 装 器 需要 解析 半 结 构 化 数据 (例如 ， 从 HTML RHE 
取 的 数据 ) ， 并 将 它们 转换 成 元 组 的 集合 。 本 章 将 讨论 后 一 种 的 情况 一 一 有 效 地 构建 将 半 结 构 
化 数据 转换 成 元 组 的 包装 器 。 我 们 首先 介绍 包装 器 所 面临 的 问题 ， 然 后 讨论 文献 中 已 经 提出 的 
不 同 解决 方案 。 


9.1 引言 


下 面 针 对 一 组 Web 页 面 组 成 的 数据 源 ， 介 绍 包装 器 的 基本 思想 。 对 每 个 数据 源 3$， 假 
设 每 个 Web 页 面 均 使 用 模式 Ts 和 格式 Fy 显示 其 结构 化 的 数据 ， 该 模式 和 数据 格式 贯穿 数 
据 源 的 所 有 页 面 。 需 要 记 住 的 重要 一 点 是 ， 该 模式 并 没有 被 显 式 地 声明 。 


例 9.1 图 9-1a~c 描述 了 3 个 这 样 的 数据 源 。 数 据 源 country. com 描述 了 国家 的 基本 
信息 ， 图 9-1a 显示 了 一 个 描述 德国 的 页 面 。 该 页 面 使 用 了 一 个 包含 单个 表 的 关系 模式 ， 
包含 country (HZ), capital (首都 ) population (AO) 和 continent (大 陆 ) 4 个 
属性 。 该 页 面 首 先 使 用 大 写字 母 显示 国家 ， 然 后 分 别 以 “Capital:”“Population:”、 “Con- 
tinent:” 为 前 级 显 示 首 都 、 人 口 和 大 陆 字 上 段 。 

数据 源 easycalls. com 是 关于 国际 电话 区 号 的 网 站 ,图 9- 1b 中 的 页 面 显示 了 一 个 
(country, code) 的 元 组 列表 。 每 个 元 组 显示 一 行 ， 其 中 country 字段 为 粗 体 ，code 字 
段 为 斜体 。 最 后 ， 图 9-1c 显示 了 一 个 来 自 数 据 源 greatebooks. com 的 页 面 ， 其 中 粗 体 显 示 
了 一 本 书 的 题目 ， 用 下 划 线 显示 一 个 或 多 个 作者 ， 然 后 价格 和 出 版 社 分别 以 “Price:” 和 
“Publisher:” ATK. 





` World Factbook: ... 
é Gia 


D The Elements of St.. * 
¢ oa wv 


D Countries in Austrata... - YE 
4 Ca 


World Factbook Countries in Australia (Continent) The Elements of Style 


Australia 67 
East Timor 670 
Papua New Guinea 675 


E. B. White 
Price: $9.95 
Publisher: Longman 


GERMANY 

Capital: Berlin 
Population: 81757600 
Continent; Europe 





Copyright easycalls.com 





a) countries.com b) easycalls.com c) greatbooks.com 


图 9-1 数据 源 实例 ， 每 个 数据 源 都 使 用 一 个 模式 和 一 种 格式 来 显示 数据 ， 
该 数据 模式 和 格式 在 数据 源 的 所 有 页 面 中 是 通用 的 <<< 
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这 些 类 型 的 页 面 在 万 维 网 上 很 常见 。 它 们 由 数据 库 系统 支持 的 网 站 创建 。 当 用 户 提出 
一 个 查询 时 ， 该 查询 被 发 送 到 后 台数 据 库 ， 并 以 元 组 集合 的 方式 响应 。 此 时 ，Perl 脚本 或 
类 似 的 脚本 程序 将 创建 一 个 便于 用 户 查 看 的 HTML 页 面 。 


9.1.1 包装 器 的 构建 


给 定 一 个 如 上 文 所 述 的 数据 源 $5， 包装 器 不 从 数据 源 S 的 页 面 中 抽取 结构 化 数据 。 形 式 
化 地 ,下 是 一 个 二 元 组 (Tw，Ew)， 其 中 Ty 是 目标 模式 (target schema), Ey 是 抽取 程序 
(extraction program) ， 该 抽取 程序 使 用 格式 Fs 从 每 个 页 面 中 抽取 一 个 符合 模式 Ty 的 数据 实 
例 。 目 标 模式 Tv 不 需要 与 页 面 中 使 用 的 模式 相同 ， 因 为 在 输出 中 我 们 可 能 想 要 重 命 名 属性 
或 者 只 需要 包含 页 面 模式 的 一 个 子 集 。 下 面 两 个 例子 说 明了 包装 器 的 操作 。 


例 9.2 考虑 一 个 包装 器 ， 它 从 数据 源 countries. com ( 见 图 9-1a) 的 页 面 中 抽取 所 有 
的 属性 。 目 标 模 式 Tv 是 数据 源 模式 T, = (country, capital, population, continent), 
当 给 定数 据 源 的 一 个 页 面 已 时 ， 抽 取 程 序 Ey 应 该 指定 返回 的 第 一 个 完全 大 写 的 字符 串 为 
country， 紧 跟 在 “Capital:” 后 面 的 字符 串 为 capital， 等 等 。 <<< 


例 9.3 考虑 一 个 包装 器 ， 它 仅 从 数据 源 greatbooks. com ( 见 9-1c) 抽取 title 和 price 
字段 。 这 里 目标 模式 Ts 是 关系 模式 (title, price), WREEF Br 返回 粗 体 的 字符 串 为 
title ， 紧 跟 在 “$ ”后 面 的 数字 为 price, <<< 


包装 器 构建 问题 是 通过 检查 数据 源 $ 的 页 面 快 速 地 创建 一 个 二 元 组 (Ty, Ey). HAF 
该 领域 大 部 分 的 研究 工作 集中 在 包装 器 构建 的 机 器 学 习 算 法 上 ， 所 以 该 问题 通常 称 为 包装 
器 学 习 。 该 问题 主要 包含 两 类 。 在 第 一 类 中 ， 想 要 学 习 数 据 源 模式 Ts; ， 以 及 用 来 抽取 符合 
模式 Ts 数据 的 程序 Bw。 因 此 ， 构 建 的 包装 器 为 到 =(T，BEw) 。 在 这 种 情况 下 ， 数 据 源 模 
KT, 也 是 目标 模式 Tw。 例 如 ， 如 果 我 们 不 知道 数据 源 countries. com 的 模式 ， 想 要 构建 例 
9.2 中 的 包装 器 ， 尤 其 是 想 要 构建 目标 模式 和 抽取 程序 。 

在 第 二 类 中 ， 只 需要 抽取 数据 源 模式 Ts 的 属性 子 集 ， 并 且 已 知 该 子 集 (例如 ， 通 过 
手工 的 方式 检查 5 的 一 个 页 面 集合 ) 。 然 后 定义 该 子 集 为 目标 模式 ?rw， 我 们 的 目标 只 需要 
构建 抽取 程序 Br。 例 如， 如 果 我 们 只 想 从 数据 源 greatbooks. com 中 抽取 title 和 price, Af 
么 在 已 知 目标 模式 的 情况 下 可 以 构建 例 9.3 中 的 包装 器 。 


9. 1.2 包装 器 构建 面临 的 挑战 
上 述 两 种 类 型 的 包装 器 构建 已 经 得 到 了 广泛 的 研究 ， 并 且 由 于 下 述 原因 其 面临 很 大 的 挑战 。 


学 习 数据 源 模式 

首先 ， 学 习 数 据 源 模式 T, 已 证 明 是 一 个 很 难 的 问题 。 通 常 采用 的 方法 是 ， 假 设 数 据 
源 5 的 每 个 页 面 是 由 文法 6 生成 的 字符 串 。 然 后 从 一 组 页 面 学 习 文 法 G， 并 使 用 G 来 推导 
7T;。 例 如 ， 通 过 查看 数据 源 countries. com 的 一 组 页 面 ， 我 们 可 以 发 现 它 们 是 由 如 下 正则 表 
达 式 〈 它 使 用 正则 文法 表示 ) 生成 的 : 


R= <html> (.+?)<hr> <br> (.+?)<br> Capital: (.+2)<br>Population:(.+2) 
<br> Continent: (.+?)< /body>< /html> 


从 该 正则 表达 式 中 ， 可 以 推导 出 数据 源 模式 (country, capital, population, conti- 
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nent ) 。 

不 幸 的 是 ， 众 所 周知 从 一 些 正 例 〈 例 如 ， 在 这 个 例子 中 数据 源 $ 的 页 面 ) 中 推导 一 个 
文法 也 是 非常 困难 的 。 例 如 ， 我 们 知道 仅 从 正 例 并 不 能 正确 地 识别 正则 文法 。 即 使 有 正 例 
和 有 反例， 也 没有 有 效 的 算法 来 识别 一 个 合理 的 文法 (例如 ,识别 符合 任意 一 组 例子 的 极 小 
状态 确定 性 有 限 自动 机 ) 。 

鉴于 这 些 局 限 性 ， 目 前 的 方法 只 考虑 包含 扁平 元 组 或 舰 套 元 组 模式 的 简单 正则 文法 。 
但 是 ， 即 使 学 习 这 些 简 单 的 模式 也 非常 难 。 常 见 的 方法 是 使 用 各 种 启发 式 来 搜索 一 个 大 的 
候选 模式 空间 。 然 而 ， 被 发 现 模式 的 正确 性 严重 依赖 于 所 采用 的 启发 式 规则 ， 错 误 的 启发 
式 规 则 常常 导致 产生 错误 的 模式 。 此 外 ， 稍 微 增 加 模式 的 复杂 性 就 可 能 导致 搜索 空间 大 小 
呈 指 数 级 增长 ， 进 而 导致 一 个 为 手 的 学 习 过 程 。 


学 习 抽取 程序 

抽取 程序 Ey 的 学 习 也 已 证 明 是 非常 难 的 。 理 想 情 况 下 ， 抽 取 程 序 应 该 是 图 灵 完 整 的 
(例如 ,一 个 Perl 脚本 ) ， 从 而 具有 最 大 的 表达 能 力 。 但 学 习 这 样 的 程序 显然 是 不 切实 际 
的 。 因 此 ， 我 们 经 常 在 抽取 程序 Ey 上 施加 一 个 受 限 的 “计算 模型 ”， 然 后 仅仅 学 习 该 模 
型 的 有 限 参 数 集合 。 

例如 ， 如 图 9- la 所 示 的 Germany 页 面 上 学 习 抽取 country 和 captial 数据 。 我 们 假设 程序 Ey 
通过 元 组 (s, ，e! ，s,，e,) 来 指定 ， 其 含义 是 Ey 抽取 s, Me, 之 间 的 第 一 个 字符 串 作 为 country， 
s, File, 之 间 的 第 一 个 字符 串 作为 capital。 在 这 个 例子 中 ， 学 习 抽 取 程 序 Ey 被 简化 为 学 习 4 个 参 
Fs en sa 、e ， 并 且 我 们 发 现 % = <hr> <br >e = <br> „s, =Capital:、e = <br>, 

即使 只 学 习 这 样 的 参数 也 已 被 证 明 是 非常 难 的 。 例 如 ， 学 习 数 据 源 模式 的 例子 ， 学 习 
参数 往往 涉及 在 启发 式 的 引导 下 在 可 能 值 的 空间 里 的 一 个 搜索 ,并且 搜索 空间 通常 很 大 ， 
因此 使 得 搜索 过 程 耗 时 、 易 出 错 。 


处 理 异 常 

包装 器 构建 难 的 第 三 个 原因 是 数据 的 布局 和 格式 通常 有 很 多 异常 。 例 如 ， 数 据 可 能 通 
常 以 一 个 元 组 (title, author, price) 的 方式 布局 。 然 而 ， 在 某 些 情况 下 ， 某 个 属性 
(例如 ，price) 可 能 缺失 ,或 者 属性 格式 可 能 发 生变 化 (例如 ， 通常 price 显示 为 黑色 ， 
但 是 如 果 价格 低 于 2 美元 则 以 红色 字体 显示 ) 。 

在 实际 中 ， 这 样 的 异常 情况 很 普遍 。 但 当 我 们 创建 包装 器 时 ， 如 果 仅 仅 只 观察 少量 
的 页 面 ， 它 们 未 必 会 出 现 。 因 此 ， 这 些 异 常 带 来 了 很 多 问题 。 它 们 可 能 使 得 我 们 对 数据 
模式 和 数据 格式 的 假设 变 得 无 效 。 它 们 也 可 能 迫使 我 们 大 幅度 地 修改 数据 源 模式 和 抽取 
程序 。 例 如 ， 在 上 述 图 书 的 例子 中 ， 为 了 处 理 属性 缺失 和 不 同属 性 的 顺序 问题 ， 必 须 将 
Ts 从 扁平 元 组 模式 修改 为 包含 析 取 (disjunction) 的 符 套 元 组 模式 。 还 必须 修改 抽取 程 
序 Ew 来 处 理 price 可 能 的 多 种 格式 。 这 些 修改 将 增 大 搜索 空间 ， 使 得 T, 和 Ey 的 学 习 
更 加 困难 。 


9. 1.3 构建 方法 的 分 类 
目前 ， 包 装 器 的 构建 方法 可 以 分 为 4 类 : 手动 、 学 习 、 自 动 和 交互 。 在 手动 方法 中 ， 开 
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发 者 查看 Web 页 面 的 集合 ， 然 后 手动 创建 目标 模式 7, 和 抽取 程序 Br。 抽取 程序 Ey 通常 使 
用 过 程 性 语言 (如 Perl, Java) 或 者 专门 的 描述 性 语言 (specialized declarative language) 编 
写 。 这 种 方法 相对 比较 容易 理解 、 实 现 和 调试 ， 也 可 以 产生 非常 准确 的 包装 器 。 因 此 ， 在 实 
际 中 该 方法 被 广泛 使 用 。 然 而 ， 手 动 方法 耗费 人 力 ， 而 且 还 要 求 由 专业 开发 人 员 完 成 。 

在 学 习 方 法 中 ， 开 发 人 员 创 建 目标 模式 Ty 并 且 在 一 个 Web 页 面 的 集合 中 标记 Ty 的 
属性 (通常 使 用 专门 为 此 而 设计 的 一 个 图 形 化 用 户 接 口 )。 然 后 开发 者 应 用 一 个 学 习 算 法 
从 这 些 做 了 标记 的 例子 中 自动 学 习 抽 取 程 序 bi,。 与 手动 方法 相 比 ， 该 方法 需要 较 少 的 人 
J, 并 且 可 以 由 技术 能 力 较 低 的 普通 用 户 使 用 。 人 然而， 标记 属性 仍然 是 一 个 费力 的 工作 ， 
并 且 所 学 到 的 抽取 程序 Ey 通常 很 脆弱 ， 需 要 大 量 的 后 续 处 理工 作 。 

自动 方法 通过 检查 Web 页 面 集合 自动 推导 包含 数据 源 模式 Ts 的 一 个 文法 ， 并 自动 生 
成 可 以 抽取 符合 模式 T, 数据 的 抽取 程序 Er。 正 如 前 面 提 到 的 ， 学 习 任 意 文法 是 不 切实 际 
的 。 因 此 ， 该 方法 仅 考 虑 被 限定 格式 的 正则 表达 式 的 文法 。 该 方法 几乎 不 需要 开发 人 员 的 
介入 ,并且 可 以 由 初级 技术 人 员 使 用 。 但 是 ， 与 学 习 方法 相同 ， 这 种 方法 经 常会 生成 脆弱 
的 包装 器 ， 它 要 求 很 多 的 后 续 处 理工 作 。 

交互 方法 结合 了 学 习 和 自动 两 种 方法 的 特点 。 它 首先 检查 Web 页 面 和 一 些 初始 用 户 
反馈 来 推导 一 个 可 能 的 抽取 程序 集合 e。 然 后 交互 地 征求 反馈 来 改进 和 缩小 集合 =。 反馈 
包括 在 Web 页 面 上 标记 属性 、 识 别 错误 的 抽取 结果 ， 并 可 视 化 地 引导 抽取 规则 的 创建 过 
程 。 与 学 习 方 法 不 同 ， 在 学 习 方 法 中 用 户 事先 花费 大 量 的 精力 来 标记 属性 ， 交 互 方法 仅 当 
判断 抽取 程序 需要 改进 时 才 请 求 反馈 。 因 此 ， 它 往往 需要 很 少 的 人 工 参 与 。 此 外 ， 它 使 用 
用 户 反馈 来 引导 搜索 过 程 ， 因 此 比 学 习 和 自动 方法 具有 更 好 的 鲁 棒 性 。 

在 本 章 接 下 来 的 内 容 中 ,我 们 将 详细 介绍 上 述 4 种 方法 。 为 了 简化 论述 ， 在 不 引起 歧 
义 的 情况 下 ， 短 语 “包装 器 ”和 “抽取 程序 ”,“ 开 发 者 ”和 “用 户 ” 相 互通 用 。 


9.2 手动 的 包装 器 构建 


手动 的 包装 器 构建 过 程 包括 : 开发 者 检查 一 个 Web 页 面 集 合 ， 然 后 创建 目标 模式 Ty 
和 抽取 程序 gw。 开 发 者 通常 使 用 过 程 语言 (如 Perl) 编写 抽取 程序 Er。 例如 ， 给 定 如 
图 9-2a 所 示 的 Web 页 面 ， 图 9-2b 显示 了 一 个 可 以 抽取 (country, code) 元 组 的 Perl 程 
序 ， 在 本 例 抽取 到 的 元 组 有 : (Australia, 61), (East Timor, 670) 和 (Papua New Guinea, 
675). 


D Countries in Austra .... 

















esga ae #!/usr/bin/perl -w 
Countries in Australia (Continent) open(INFILE, $ARGV{0}) or die “can't open file\n"; 
Rt 6) while ($line = <INFILE>) { 
East Timor 670 if ($line =~ m/<B\>(.+?)\<VB\>\s+7\<I\>(\d+?)\<VI\>\<BRI>/) { 
Papua New Guinea 675 ) print “($1,$2)\n"; 
Copyright easycalls.com } ose(INFILE); 
a) 数据 源 easycalls.com 的 一 个 页 面 样 例 b) 一 个 手工 构建 的 包装 器 (这 里 是 一 个 Perl 程 序 〉， 
它 可 以 从 这 些 页 面 中 抽取 数据 


图 9-2 
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在 上 述 例子 中 ，Perl 程序 将 页 面 建 模 成 一 个 长 字符 串 。 男 一 个 可 选 模型 是 将 页 面 看 成 
DOM 树 。 例 如 ， 图 9-3a 显示 了 一 个 DOM 树 ， 它 描述 了 一 个 电影 Web 页 面 的 HTML 结构 。 
有 了 这 个 DOM 树 ， 开 发 者 可 以 使 用 XPath 语言 编写 一 个 如 图 9-3b 所 示 的 包装 器 。 该 包装 
器 的 第 一 个 规则 


title = /html/body/div(|1|/table/td[2]/textQ 


htm! 

head body 

| fF OS 

title div div 
Inception table er 

td td td | td title  =/htmllbody/div{1\/table/ta[2)/text() 

| | | | | | rating =/htmi/bodyldiv{2\/table/td [2)/text() 
Title: Inception Rating: 8.4 Runtime: 148 mins runtime =/html/body/div{2\/table/td[4)/text() 

a) 一 个 电影 Web 页 面 的 DOM 树 b) 一 个 包装 器 ， 它 使 用 DOM 树 来 抽取 


该 电影 的 标题 、 评 分 以 及 时 长 
图 9-3 


是 一 个 XPath 规则 ， 它 从 根 节点 开始 ， 然 后 顺序 遍历 其 body 子 节点 ， 第 一 个 div Fi 
点 ，table 子 节点 ， 直 到 table 的 第 二 个 td 子 节点 并 抽取 该 节点 的 文本 值 作为 电影 的 标题 。 
以 类 似 的 方法 ， 第 二 个 规则 抽取 排名 ， 第 三 个 规则 抽取 电影 时 长 。 

对 开发 人 员 来 说 ， 男 一 个 选择 是 采用 页 面 的 视觉 特征 建 模 。 例 如 ， 图 9-2a 中 的 页 面 
从 视觉 上 可 以 被 建 模 成 3 ER: 标题 “Countries in Australia( Continent)”、(country，code) 
元 组 区 域 、 页 脚 “Copyright easycalls. com”。 给 定 一 个 页 面 ， 开 发 者 可 以 使 用 该 视觉 模型 
定位 第 二 块 ， 然 后 再 使 用 字符 串 模型 来 解析 该 块 ， 抽 取 (country, code) 元 组 。 一 般 来 
说 ， 视 觉 模 型 通常 提供 有 效 的 方法 来 删除 页 眉 、 页 脚 和 广告 ， 从 而 定位 数据 区 域 。 然 后 ， 
字符 串 模 型 提供 有 效 的 方法 解析 数据 区 域 从 而 抽取 需要 的 数据 。 

无 论 采用 哪 种 页 面 模型 ， 使 用 低级 过 程 语 言 编写 抽取 程序 都 非常 耗费 精力 。 为 此 ， 人 
们 提出 了 多 种 高 级 包装 器 语言 。 例 如 ， 下 一 节 中 我 们 将 详细 讨论 的 HLRT 语言 ， 它 使 用 形 
W Ch, t, L, om, ot, hs Ta) 的 2n+2 个 元 组 指定 一 个 程序 抽取 nn 个 属性 值 。 给 定 该 元 
组 ,一 个 程序 Ey 抽取 的 第 一 个 匹配 项 和 的 最 后 一 个 匹配 项 之 间 的 区 域 作为 数据 区 域 。 
然后 ， 解 析 该 区 域 来 抽取 和 六 之 间 的 字符 串 作 为 第 一 个 属性 的 值 ，2> 和 7, 之 间 的 字符 
串 为 第 二 个 属性 值 ， 以 此 类 推 。 如 果 开 发 者 确定 HLRT 能 满足 需求 (例如 ， 从 easy- 
calls. com 中 抽取 (country, code) 元 组 ) ， 则 包装 器 的 编写 可 以 简化 成 指定 2n + 2 FSB 
数值 。9. 5 节 讨 论 了 其 他 几 个 高 级 包装 器 语言 ， 包 括 datalog 变种 。 与 基于 过 程 的 语言 相 
比 ， 除 了 节省 开发 者 的 精力 以 外 ， 这 种 语言 编写 的 包装 器 通常 更 容易 理解 、 编 译 和 维护 。 


93 基于 学 习 的 包装 器 构建 


虽然 手动 方法 构建 的 包装 器 可 能 非常 有 效 ， 但 处 理 大 量 数据 源 时 它们 往往 需要 耗费 很 
大 的 人 力 ， 这 是 很 不 现实 的 。 相 反 ， 基 于 学 习 的 方法 虽然 只 能 处 理 有 限 的 包装 器 类 型 ， 但 
可 以 使 用 训练 样本 自动 地 学 习 。 一 个 初级 技术 人 员 就 可 以 提供 这 样 的 训练 样本 ， 它 们 通常 
是 一 个 标记 的 Web 页 面 集合 ， 与 手动 编写 包装 器 相 比 ， 它 要 求 很 少 的 人 员 消 耗 。 

本 节 介 绍 基于 学 习 的 包装 器 构建 方法 。 我 们 首先 使 用 一 个 简单 的 包装 器 学 习 器 HLRT 
解释 包装 器 学 习 的 主要 思想 。 然 后 介绍 一 个 更 为 复杂 的 包装 器 学 习 器 Stalker， 并 用 它 来 说 
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明 包 装 器 学 习 中 面临 的 各 种 复杂 问题 。 
9.3.1 HLRT 包装 器 


HLRT 包装 器 使 用 字符 串 分 隔 符 指 定 如 何 抽取 关系 元 组 。 我 们 再 次 以 图 9-4a 中 的 
“Countries in Australia ( Continent)” 页面 为 例 。 图 9-4b 显示 了 它 的 HTML 文本 ， 它 由 3 Y 
分 组 成 : 以 <P > 结束 的 “head”， 以 <HR > 开始 的 “tail” 和 它们 之 间 的 数据 区 。 其 中 ， 
数据 区 域 以 (country, code) 元 组 的 形式 显示 ，<B > 和 </B > 之 间 是 country 字段 ， 
<I> FI </I> ZEE code 字段 。 


pee 





J J Countries in Australia 


<HTML> 
e +C a| <TITLE>Countries in Australia (Continent)</TITLE> 头 部 
<BODY> 7 
i ee ea <B>Countries in Australia (Continent)</B><P> 
Australia 6! <B>Australia</B> <|I>61</I><BR> 
gies - <B>East Timor</B> <I>670</I><BR> 数据 区 
II a <B>Papua New Guinea</B> <I>675</I><BR> 
| Papua New Guinea 675- <HR> 
| <B>Copyright easycalls.com</B> 尾部 
| Copyright easycalls.com </BODY> 
</HTML> 


a) b) 


图 9-4 一 个 Web 页 面 的 例子 ， 从 该 页 面 HLRT 包装 器 模型 可 以 
使 用 字符 串 分 隔 符 来 抽取 关系 元 组 (country, code) 


为 了 从 这 样 的 页 面 中 抽取 (country, code) 元 组 ， 我 们 可 以 编写 一 个 简单 的 包装 器 ， 
它 可 以 使 用 分 割 符 <P > 去 掉 head 部 分 ， 使 用 < HR > 去 掉 tail 部 分 ， 然 后 扫描 数据 部 分 抽取 
<B> 和 </B> 之 间 的 字符 串 作为 country，<1I> 和 </I> 之 间 的 字符 串 作为 code。 因 为 
head 和 tail 也 可 能 包含 位 于 <B> 和 </B> 之 间 的 字符 串 ， 如 “Countries in Australia (Conti- 
nent)”， 很 明显 这 不 是 一 个 国家 名 ， 所 以 必须 在 扫描 country 和 code 之 前 把 它们 去 掉 。 

在 HLRT (“head-left-right-tail” 首 字母 缩写 ) 中 ， 上 述 包 装 器 可 以 表示 为 一 个 包含 6 个 字 
E (<P>, <HR>, <B>,</B>,<I>,</I1>) 的 元 组 。 形式 化 地 ,抽取 nn 个 属性 
a, =, a, W HLRT 包装 器 是 一 个 包含 (2n +2) 个 字符 串 的 元 组 (A, t, h, r ce, h m), 
其 中 标记 了 head 的 结尾 ,i 标记 了 tail 的 开始 ,上 和 7; 分 隔 了 第 i 个 属性 值 。 这 样 的 包装 器 不 
必 抽 取 页 面 中 显示 的 所 有 属性 。 例 如 ，HLRT 包装 器 ( <P>, <HR >, <B>,</B>) 只 从 如 
图 9-4a 所 示 的 页 面 中 抽取 country 字段 。 


ZIHLRT BAR 

我 们 现在 介绍 如 何 为 数据 源 $ 学 习 一 个 HLRT 包装 器 。 假 设 一 个 开发 者 想 要 从 数据 源 
S 上 抽取 属性 a, «+, ano 在 查看 了 S 的 一 些 页 面 后 ， 开 发 者 建立 一 个 可 以 准确 抽取 这 些 
属性 的 HLRT 包装 器 W=(h, t, h, m, +, 了， 六)。 

我 们 的 目标 是 学 习 这 (2n +2) 个 参数 有 t, h, rT ，…，1,，r,。 为 此 ， 需 要 标记 数 
据 源 S 的 一 个 页 面 集 合 7= |p °°, Palo Mic Ri p: REE p, 中 指定 每 个 属性 值 的 开始 
和 结束 位 置 ， 通 常 使 用 一 个 专门 的 图 形 化 用 户 接 口 来 完成 。 例 如 ， 标记 图 9-4a 中 的 页 面 
包括 : 指定 “Australia” 是 国家 名 ， 它 开始 于 第 108 个 字符 、 结 束 于 第 116 个 字符 ，“61” 
是 区 号 ， 它 开始 于 第 125 个 字符 、 结 束 于 第 126 个 字符 ， 等 等 。 
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然后 开发 人 员 将 标记 过 的 页 面 p,，…，p。 输入 学 习 模 块 。 最 简单 的 学 习 模块 将 系统 
地 搜索 所 有 可 能 符合 标记 页 面 的 HLRT 包装 器 空间 ， 如 下 所 示 。 

1) RA h HATEHA: S x 为 从 页 面 p; 开头 直到 第 一 个 属性 a, 第 一 次 出 现 之 间 
的 字符 串 (不 包含 属性 a ) 。 例 如 ， 


<HTML> 

<TITLE>Countries in Australia (Continent)</TITLE> 
<BODY> 

<B>Countries in Australia (Continent)</B><P> 

<B> 


是 图 9-4b 中 页 面 由 此 方法 获得 的 字符 串 。 很 明显 ， 字 符 串 x, oo, x, 均 包 含 了 正确 的 h。 
因此 ， 我 们 取 x,，…，x, 所 有 公共 子 串 的 集合 作为 /的 候选 值 。 

2) 找到 上 的 所 有 可 能 值 : 可 以 用 类 似 的 方法 找到 上 的 所 有 候选 值 。 

3) 找到 每 个 的 所 有 可 能 值 : 以 4, 为 例 ， 它 是 属性 a, 的 左 侧 分 割 符 。 很 明显 ，1 必 
须 是 恰好 在 属性 a, 的 标记 值 前 结束 的 所 有 字符 串 的 共同 后 缀 。 用 相似 的 方法 ， 我 们 可 以 
RIL, =, 1, 的 所 有 候选 值 。 

4) 找到 每 个 六 的 所 有 可 能 值 : 类 似 地 ， 取 恰好 在 属性 w 的 标记 值 后 开始 的 所 有 字符 
串 的 共同 前 级 作为 r; 的 候选 值 。 

5) 搜索 上 述 值 的 组 合 空间 : 我 们 将 上 述 候选 值 组 合 起 来 形成 候选 包装 器 。 如 果 一 个 
候选 包装 器 四 可 以 正确 地 抽取 a,，…，a, TAA, WPA AEA i p 一旦 找到 一 
个 与 所 有 标记 页 面 p ，…，p。 均 符合 的 包装 器 ， 搜 索 过 程 就 结束 并 返回 该 包装 器 。 

在 参考 文献 注释 中 ， 我 们 提 到 了 一 些 工作 ， 它 们 讨论 如 何 优 化 上 述 搜索 步骤 以 及 如 何 
选择 标记 页 面 的 数量 m， 从 而 确保 有 很 高 的 可 能 性 生成 正确 的 包装 器 。 

如 上 所 述 ，HLRT 包装 器 相对 比较 容易 理解 和 实现 。 然 而 ， 它 们 在 应 用 上 也 有 局 限 性 。 
尤其 是 ， 它 们 假设 一 个 扁平 元 组 模式 ， 并 且 假 设 所 有 属性 都 可 以 通过 分 隔 符 正 确 地 抽取 。 
实际 上 ， 许 多 数据 源 使 用 更 加 复杂 的 模式 ， 如 吝 套 元 组 模式 。 例 如 ， 一 个 页 面 可 能 将 一 本 
书 描述 为 一 个 元 组 (title，authors，price)， 这 里 属性 authors 实际 上 是 一 个 元 组 
(first-name, last-name) SIZ. MA, 使 用 分 隔 符 可 能 不 能 正确 地 抽取 属性 ， 例 如 从 地 
址 “4000 Colfax, Phoenix, AZ 85258” 和 “523 Vernon, Las Vegas, NV 89104” 中 抽取 邮 
iio EFE, 我们 将 介绍 Stalker 包装 器 ， 它 可 以 解决 上 述 问题 。 


9. 3.2 Stalker 包装 器 


我 们 首先 定义 租 套 元 组 模式 ， 然 后 再 讨论 Stalker 如 何 学 习 应 用 这 种 模式 的 包装 器 。 


RETA 

图 9-Sa 中 的 Web 页 面 是 能 套 元 组 模式 的 一 个 例子 。 页 面 列 出 了 饭店 的 名 称 、 食 物 类 
型 以 及 它 的 多 个 地 址 。 每 个 地 址 都 列 出 街道 、 城 市 、 州 、 邮 编 和 电话 。 因 此 ， 该 页 面 显示 
了 单个 元 组 (name, food, addresses), ， 而 其 中 addresses 包含 了 多 个 元 组 (street, 
city，state，zip-code，phone) 。 

RENHA AHF Web KEF, AN ENE MiB. Brite, MAREKI 
组 模式 集合 7 满足 如 下 属性 : 

。 将 数据 显示 为 单个 字符 串 的 模式 属于 集合 T。 

。 WRT, =, 7, 属于， 则 元 组 模式 (7,，…，7,) 也 属于 工 ， 该 模式 生成 形 如 
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(tis aa t,) 的 元 组 ， 其 中 i 是 7 的 实例 (1<i<n), 
。 最 后 ， 如 果 7T 属于， 则 模式 列表 <7> 也 属于 T。 该 模式 列表 可 以 生成 一 个 列表 ， 
其 元 素 是 了 的 实例 。 
一 个 艇 套 元 组 模式 可 以 可 视 化 为 一 棵 树 ， 树 的 叶子 节点 是 字符 串 ， 中 间 节 点 是 元 组 节 
点 或 者 列表 节点 。 一 个 元 组 节点 的 孩子 是 该 元 组 的 不 同 组 成 部 分 ， 同 时 列表 节点 只 有 一 个 
孩子 ， 其 描述 了 列表 实例 的 类 型 。 图 9-5b 显示 了 一 棵 树 ， 它 显示 了 图 9-5a 中 页 面 的 模式 。 
XE, name 这 样 的 叶子 节点 是 一 个 字符 串 。 中 间 节 点 list(addresses) 是 一 个 地 址 节点 
IR, 并且 每 个 address 节点 包含 street 和 city 这 样 的 叶子 节点 。 


m review 
L) Restaurant Review 
Ga 
Name: Yala name cuisine list(address) 
Cuisine: Thai 
address 
4000 Colfax, Phoenix, AZ 85258 (602) 508-1570 


523 Vernon, Las Vegas, NV 89104 (702) 578-2293 
403 Pico, Los Angeles, CA 90007 (213) 798-0008 





street city state zip-code phone 


a) 数据 使 用 做 套 格式 的 一 个 Web 页 面 b) 该 格式 可 视 化 为 一 棵 树 
图 9-5 


Stalker BERERA 
一 个 Stalker 包装 器 以 树 的 形式 描述 内 套 元 组 模式 ， 并 且 给 树 中 每 个 节点 赋 一 个 规则 集 
合 ， 该 集合 显示 如 何 为 该 节点 抽取 数据 值 。 图 9-6a 显示 了 一 个 餐馆 评论 的 Stalker 包装 器 。 
(为 了 避免 杂乱 ， 我 们 省 略 了 某 些 叶子 节点 的 规则 。) 
通过 展示 图 9-6b PRH p 上 包装 器 的 执行 过 程 ， 说 明了 图 9-6a 中 的 包装 器 。 开 始 将 p 
赋值 给 根 节点 restaurant。 然 后 ， 对 每 个 子 节 点 一 一 (name、cuisine Ail list (ad- 
dress) ) ， 在 根 节点 的 字符 串 上 执行 相关 规则 ， 从 而 抽取 合适 的 数据 值 。 
restaurant 


Start: SkipTo(Cuisine:), SkipTo(<p>) 
End: BackUntil(</i>) 


name cuisine list(address) 


| Start: Skip To(<i>) 
Start: SkipTo(<b>) Start: Skip To(Cuisine) address End: BackTo(</i>) 
End: BackTo(</b>) End: BackTo(<p><i>) Om 
street city state zip-code phone 


Start: SkipTo(,) 
End: BackTo(,) 


a) 一 个 Stalker 包 装 器 


<p> Name: <b>Yala</b><p>Cuisine: Thai<p> 

<i>4000 Colfax, Phoenix, AZ 85258 (602) 508-1570</i><br> 
<i>523 Vernon, Las Vegas, NV 89104 (702) 578-2293</i><br> 
<i>403 Pico, LA, CA 90007 (213) 798-0008</i> 


b) 一 个 目标 页 面 
图 9-6 
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考虑 执行 节点 name 上 的 规则 。 第 一 个 规则 ，start: SkipTo( <b>), ， 从 开始 位 置 向 前 
扫描 p 直到 到 达 一 个 标签 <b > ， 然 后 将 紧 随 其 后 的 标记 指定 为 name (F) 的 开始 。 类 
似 地 ， 第 二 个 规则 ，End: BackTo( </b>)， 从 尾部 向 后 扫描 p 直到 </b > ， 然 后 将 该 标 
签 的 前 端 标 记 为 name 的 结束 。 这 样 就 可 以 获得 “Yala” 为 餐厅 名 称 。 用 相似 的 方法 ,我 
们 在 节点 cuisine 上 执行 规则 抽取 到 “Thai” 值 。 

节点 list(address) 的 执行 比较 复杂 。 这 里 有 两 个 规则 来 抽取 整个 列表 ， 即 包含 所 有 
地 址 的 字符 串 。 有 具体 来 说 ， 规 则 Start: SkipTo( Cuisine: ) ，SkipTo( <p>) 向 前 扫描 p 直 
到 Cuisine: ， 继 续 扫描 直到 < p > ， 然 后 将 下 一 个 标签 标示 为 列表 的 开头 。 (注意 : 这 里 单 
个 的 SkipTo 规则 ， 如 Start; SkipTo( <p > ) ， 不 能 正确 地 标示 列表 的 开头 。 它 将 提前 终 
止 。) 类 似 地 ， 规 则 End; BackUntil( </i>) 向 后 扫描 p 直到 </i> 停 止 ， 然后 标示 该 标 
签 为 列表 的 结尾 。 注 意 这 里 BackUntil( </i>) 并 不 会 像 BackTo( </i>) WEER </i> 
标签 。 整 个 列表 是 这 两 个 记号 之 间 的 字符 串 。 

接 下 来 ， 将 节点 address 的 两 个 规则 应 用 到 上 述 字 符 串 中 抽取 地 址 信息 。 规 则 Start; 
Skipto( <i>) 扫描 该 字符 串 直 到 第 一 个 <i> 停 止 ， 标 示 下 一 个 标签 为 第 一 个 地 址 的 起 始 
位 置 ， 然 后 继续 扫描 直到 第 二 个 <i > ， 然 后 标示 下 一 个 标签 为 第 二 个 地 址 的 起 始 位 置 ， 
等 等 。 类 似 地 ， 规 则 End: BackTo( </i>) 标示 地 址 的 结尾 。 我 们 然后 抽取 相应 标记 之 
间 的 字符 串 为 地 址 。 

在 下 一 步 中 ,将 节点 street, city, state, zipcode 和 phone 上 的 规则 应 用 到 每 个 地 
址 来 抽取 合适 的 实例 。 例 如 抽取 city (城市 ) ， 我 们 可 以 向 前 扫描 一 个 地 址 直到 遇 到 一 个 
逗号 ， 然 后 再 向 后 扫描 直到 遇 到 一 个 逗号 ， 最 后 抽取 它们 之 间 的 字符 串 。 

因此 ，Stalker 包装 器 以 自 项 向 下 的 方式 执行 。 根 节点 被 赋值 为 一 个 字符 串 (该 字符 
串 是 Web 页 ) 。 执 行 根 节点 的 子 节点 生成 一 个 子 串 的 集合 ， 再 将 子 串 作 为 输入 传递 给 该 子 
节点 的 孩子 节点 的 抽取 规则 ， 以 此 类 推 。 


Stalker 抽取 规则 


现在 ， 详 细 介 绍 抽取 规则 。 每 个 规则 由 一 个 上 下 文 和 命令 序列 组 成 。 上 下 文 是 如 我 们 
前 面 看 到 的 Start 和 End。 命 令 序列 的 例子 为 : 


SkipTo(<b>) 
SkipTo(Cuisine:), SkipTo(<p>) 


每 个 命令 接受 一 个 标志 (landmark) (41 <b>, Cuisine; 和 <p>) 或 者 三 元 组 (Name 
Punctuation HTMLTag) 作为 输入 。 

在 解释 标志 之 前 ， 我 们 注意 到 一 个 页 面 被 看 成 是 一 个 标记 序列 ， 其 中 包括 : 标点 符 
号 、HTML 标签 和 字母 数字 串 ( 以 空格 、 标 点 符号 或 者 HTML 标签 分 隔 ) 。 一 个 标志 是 一 
个 标记 和 通配符 的 序列 ， 其 中 每 个 通配符 〈 如 标点 或 HTML 标签 ) 是 指 一 类 标记 。 一 个 标 
志 可 以 被 看 成 是 一 个 可 以 与 页 面 内 容 匹 配 的 受 限 正则 表达 式 。 例 如 ， 标 志 

Name Punctuation HTMLTag 
将 匹配 字符 串 Name: <b > 。 

通过 扫描 文本 直到 遇 到 与 输入 标志 匹配 的 字符 串 来 执行 一 个 命令 。 命 令 序列 的 执行 是 
以 命令 序列 所 列 出 的 顺序 依次 执行 命令 ， 即 前 一 个 命令 结束 则 下 一 个 命令 开始 。 

为 了 处 理 页 面 格式 中 的 各 种 变化 ，Stalker 还 提供 了 包含 命令 序列 析 取 的 抽取 规则 。 例 
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如 ， 如 果 该 饭店 是 被 推荐 的 饭店 ， 则 其 名 称 用 黑体 显示 ， 和 否则 以 斜体 显示 ， 则 可 以 使 用 如 
下 规则 来 标记 一 个 餐馆 名 称 的 开始 位 置 : 

Start : either SkipTo(<b>) or SkipTo(<i >) 
当 扫 描 到 一 个 <b > 或 者 <i > 标记 时 ， 该 规则 停止 。 类 似 地 ， 下 面 的 规则 标记 了 一 个 餐馆 
名 称 的 结尾 : 

End : either BackTo(</b>) or BackTo(Cuisine), BackTo(</i>) 
一 般 来 说 ， 析 取 规 则 指定 了 命令 序列 的 一 个 有 序列 表 。 为 了 应 用 该 规则 ， 需 要 按 顺 序 应 用 
规则 序列 ， 直 到 发 现 匹配 的 一 个 序列 为 止 。 


A Stalker BRR 

我 们 现在 介绍 如 何 学 习 Stalker 包装 器 。 学 习 程 序 将 开发 者 指定 的 髓 套 元 组 模式 和 一 个 
Web 页 面 集合 作为 输入 ， 这 些 Web 页 面 中 的 节点 实例 均 已 经 被 标记 。 

我 们 的 目标 是 利用 这 些 标 记 的 页 面 为 树 的 节点 学 习 规 则 。 尤 其 是 ， 对 每 个 叶子 节点 ， 
例如 name， 学 习 一 个 起 始 规则 和 一 个 结束 规则 ， 如 图 9-6a 所 示 的 两 个 规则 。 对 每 个 中 间 
Wet, Pjan list( address) ， 学 习 一 个 开始 规则 和 一 个 结束 规则 用 来 抽取 整个 列表 。 下 面 ， 
我 们 将 通过 讨论 如 何 学 习 叶 子 节点 的 起 始 规则 来 说 明 整 个 学 习 过 程 。 

为 了 便于 阐述 ， 我 们 以 图 9-7a 中 的 简单 地 址 模式 和 图 9-7b 中 被 标记 了 area-code 的 
4 个 页 面 玉 ~E, 为 例 。 目 标 是 使 用 这 些 标记 的 样本 来 学 习 area-code 的 起 始 规则 。 

address E;: 513 Pico, <b>Venice</b>, Phone: 1-<b> [800|</b>-555-1515 
Ez: 90 Colfax, <b>Palms</b>, Phone: (818]) 508-1570 
E3: 523 First St., <b>LA</b>, Phone: 1-<b>|888| </b>-578-2293 
street city area-code phone Es 403 La Tijera, <b>Watts</b>, Phone: ([310]) 798-0008 
a) 一 个 简单 的 地 址 模式 b) 4 个 地 址 ， 其 中 area-code 部 分 被 标记 


图 9-7 


我 们 采用 了 一 个 称 为 序列 履 盖 (sequential covering) 的 学 习 技 术 ， 这 是 一 种 迭代 处 理 
方法 。 第 一 次 迭代 查找 可 以 覆盖 〈 即 正确 匹配 ) 训练 样本 子 集 的 一 个 规则 。 第 二 次 迭代 查 
找 可 以 覆盖 剩余 训练 样本 子 集 的 一 个 规则 ， 如 此 下 去 直到 已 经 覆盖 了 所 有 训练 样本 。 最 后 
的 规则 是 到 目前 为 止 找到 的 所 有 规则 的 析 取 。 

继续 图 9-7 中 的 例子 ， 我们 首先 定义 样本 的 前 组 是 从 该 样本 的 起 始 位 置 开 始 到 区 号 的 
起 始 位 置 之 间 的 字符 串 。 例 如 ，E, 的 前 缀 是 “513 Pico, <b > Venice </b>, Phone; 1- 
<b>”。 接 下 来 ,选择 具有 最 短 前 缀 的 样本 ， 在 这 个 例子 中 是 5,。 该 前 缀 的 最 后 一 个 字 
符 是 “(”， 它 可 以 匹配 两 个 通配符 : Punctuation 和 Anything。( 见 图 9-8， 在 这 个 学 习 场 景 
中 我 们 使 用 的 通配符 样 例 )。 所 以 创建 了 3 个 初始 的 候选 规则 : 

R, = SkipTo((), Ro = SkipTo(Punctuation), Ra = SkipTo(Anything) 
规则 R AAPA E, 和,， 其 恰好 在 一 个 区 号 前 面 停止 。 相 反 ， 规 则 R, AR, 不 能 覆盖 任 
何 训练 样本 。 因 此 ， 第 一 次 迭代 返回 规则 R 。 

第 二 次 迭代 考虑 剩余 的 训练 样本 E, ALE, E 有 一 个 较 短 的 前 缀 ， 所 以 选择 局 ， 并 创 
建 3 个 初始 候选 规则 : 


Ra = SkipTo(<b>), Rs = SkipTo(HTMLTag), Re = SkipTo(Anything) 


这 些 规则 中 没有 可 以 覆盖 任何 训练 样本 的 规则 ， 所 以 选择 其 中 一 个 规则 来 改进 。 我 们 选择 


254 





186 第 一 部 分 数据 集成 技术 基础 











R, ， 因 为 它 在 标志 部 分 没有 使 用 通配符 。 改 进 尺 产生 如 图 9-8 所 示 的 18 个 候选 规则 。 在 
这 些 规则 中 ，R,、Ri, Ras Ras Riss RA Ro MRT A RAY REAR E, M E A, M 
这 些 规则 中 选择 一 个 规则 返回 。 我 们 最 终 选择 R,， 因 为 它 有 最 长 的 结尾 标志 (其 他 所 有 
规则 都 是 以 单个 标记 作为 结尾 标志 ) 。 因 为 没有 剩余 未 覆盖 的 样本 ， 所 以 该 算法 结束 ， 返 
El R, 和 R, 的 析 取 作为 area-code 的 起 始 规则 : 


Wildcards: Anything, Numeric, AlphaNumeric, Alphabetic, Capitalized, 





AllCaps, HTMLTag, nonHTML, Punctuation 





R7: SkipTo(- <b>) Rig: SkipTo(1) Skip To(<b>) 

Rg: SkipTo(Punctuation <b>) R47: SkipTo(Numeric) SkipTo(<b>) 
Rg: SkipTo(Anything <b>) Rg: SkipTo(Punctuation) SkipTo(<b>) 
Ri1o: Skip To(Venice) SkipTo(<b>) R49: SkipTo(HTMLTag) Skip To(<b>) 
R11: SkipTo(</b>) Skip To(<b>) Roo: SkipTo(AlphaNum) SkipTo(<b>) 
R42: SkipTo(:) Skip To(<b>) R21: SkipTo(Alphabetic) Skip To(<b>) 
R43: SkipTo(-) SkipTo(<b>) Roo: SkipTo(Capitalized) Skip To(<b>) 
R44: SkipTo(,) Skip To(<b>) Ro3: SkipTo(NonHTML) Skip To(<b>) 
R15s: SkipTo(Phone) SkipTo(<b>) R24: SkipTo(Anything) Skip To(<b>) 





图 9-8 一 组 通配符 的 示例 以 及 学 习 area-code 开始 规则 时 得 到 的 一 组 候选 规则 


讨论 

Stalker 包装 器 模型 包含 了 HLRT 包装 器 模型 ， 并 且 两 者 都 可 看 成 是 有 限 状 态 自动 机 模 
型 。 两 者 都 说 明了 如 何在 目标 模式 语言 上 使 用 结构 从 而 使 得 学 习 过 程 切 实 可 行 。 这 个 结构 
可 能 相对 比较 简单 ， 如 HLRT 的 扁平 元 组 ， 或 相对 比较 复杂 ， 如 Stalker 中 的 树 形 结构 。 无 
论 如 何 ， 结 构 严 格 地 约束 着 目标 语言 ， 并 将 一 般 的 学 习 问 题 转化 为 学 习 较 小 参数 集合 的 一 
个 更 为 简单 的 问题 ， 如 HLRT 中 的 分 隔 字符 串 或 者 Stalker 中 的 抽取 规则 。 

即使 在 受 限 的 搜索 空间 内 ，HLRT 和 Stalker 仍然 需要 使 用 启发 式 使 得 学 习 参 数 更 加 容 
易 。 例 如 ， 在 每 次 迭代 中 ，Stalker 选择 具有 最 短 前 缀 的 样本 来 生成 候选 抽取 规则 。 然 后 
Stalker 通过 扩展 标志 或 者 添加 男 一 个 命令 (参见 9.3.2 节 ) 来 改进 每 个 规则 。 即 使 有 了 这 
些 启发 式 ， 我 们 仍然 经 常 面 对 一 个 巨大 的 搜索 空间 。 例 如 ， 图 9-7 在 第 二 次 迭代 中 (I 
图 9-8) 已 经 生成 了 18 个 规则 。 像 页 面 格式 变化 这 样 的 复杂 情况 将 进一步 扩大 搜索 空间 ， 
从 而 使 得 学 习 程序 变 得 更 加 脆弱 。 


9.4 无 模式 的 包装 器 学 习 


所 谓 包装 器 学 习 的 自动 方法 是 以 数据 源 S 的 Web 页 面 集 合作 为 输入 ,检查 页 面 之 间 
的 相似 性 和 相 异 性 ， 自 动 地 推导 出 页 面 模 式 Ts 和 抽取 符合 Ts 数据 的 抽取 程序 Eyo 

例如 ， 给 定 图 9-9a 中 描述 图 书 的 两 个 页 面 ， 自 动 方法 应 该 返回 如 图 9-9b 所 示 的 模式 Ts 以 
及 如 图 9-9c 所 示 的 抽取 程序 Br ， 它 们 均 以 一 个 类 正则 表达 式 的 语言 编写 。 模 式 7 表示 每 个 页 
面 列 出 一 个 属性 4， 属性 8 的 一 个 或 多 个 值 ， 可 选 属性 C， 然 后 是 属性 D。 抽 取 程序 Ey 显示 如 
何 解析 一 个 页 面 来 抽取 属性 4 ~ D 的 数据 〈 在 程序 中 编码 为 可 CDATA ) 。 将 抽取 程序 Ey 应 用 到 
如 图 9-9a 所 示 的 两 个 页 面 ， 生 成 如 图 9-9d 所 示 的 抽取 数据 的 表格 。 

因此 ， 与 前 几 节 中 描述 的 方法 相反 ， 自 动 方法 不 需要 目标 模式 作为 输入 。 因 此 ， 它 们 
不 能 为 所 学 习 的 模式 属性 分 配 有 意义 的 属性 名 (如 author、title) ， 而 只 是 使 用 通用 的 名 
称 (如 A 和 8B)。 自 动 包 装 器 学 习 的 主要 优点 是 不 需要 人 工 干 预 。 
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t Ca e Cha a 


The Elements of Style The Snow of Kilimanjaro 


Publisher:Senbner 
Price: $9.95 
Publisher;Lonainan 





AB+C?D 
a) 来 自 相同 数据 源 的 两 个 Web 页 面 b) 用 正则 表达 式 表 示 的 页 面 模 式 7; 


<HTML><B>#PCDATA</B><P>(<U>#PCDATA</U><BR>)+ 
(<l>Price:</I>#PCDATA<BR>)?<l>Publisher:</l>#PCDATA<BR></HTML> 


c) 抽取 程序 Er 
| | s ol Bb | 
William Strunk Jr 
The Elements of Style $9.95 | Longman 
E.B. White 


The Snow of Kilimanjaro | Ernest Hemingway | Scribner 


d) 从 上 面 两 个 页 面 通过 Er 抽取 出 来 的 数据 
图 9-9 





现在 介绍 RoadRunner， 一 个 有 代表 性 的 自动 学 习 方 法 。 我 们 将 介绍 RoadRunner 如 何 
建 模 目标 模式 Ts 和 抽取 程序 Es， 以 及 如 何 从 一 个 Web 页 面 集合 推导 出 T; Al Eyo 


9.4.1 建 模 数据 源 模式 Ts 和 抽取 程序 Ew 


数据 源 S 的 Web 页 面 使 用 模式 T 显示 数据 。RoadRunner 将 T, 建 模 成 一 个 租 套 元 组 模 
式 (参见 9.3.2 节 )。 回 想 一 下 ， 这 种 模式 可 以 钥 套 元 组 和 列表 并 且 人 允许 某 些 可 选项 和 析 
WA, RoadRunner 允许 某 些 属性 为 可 选项 ， 即 某 些 属性 (如 图 9-9d 所 示 的 属性 C) 在 页 
面 中 可 以 出 现 也 可 以 不 出 现 。 但 它 不 允许 析 取 项 。 因 此 ,7, 可 以 表示 为 一 个 没有 联合 
(union-free) 的 正则 表达 式 ， 如 图 9-9b 所 示 。 

RoadRunner 将 抽取 程序 Ey 表示 为 一 个 正则 表达 式 ， 当 在 一 个 Web 页 面 上 执行 时 将 抽 
取 了 , 的 属性 值 。 图 9-9c 显示 了 这 样 的 一 个 正则 表达 式 R。 给 定 一 个 Web 页 面 ，R 从 页 面 
的 起 始 位 置 开 始 匹 配 <HTML > < B > ， 然 后 匹配 并 返回 直到 第 一 个 </B > 之 间 的 字符 串 
作为 属性 4 的 值 ， 等 等 。 例 如 ， 在 图 9-9a 的 第 一 个 页 面 中 ，R 将 返回 “The Elements of 
Style” 为 属性 4 的 值 。 一 般 来 说 ，R 的 #PCDATA Wi T, 的 属性 值 的 “数据 槽 ”， 并 且 这 
些 值 将 不 会 包含 任何 HTML 标签 (例如 <B> )。 

T; 中 没有 析 取 并 且 属 性 值 中 没有 HTML 标签 的 假设 降低 了 查找 Ts 和 Ey 的 复杂 度 。 
但 它们 限制 了 RoadRunner 的 适用 性 。 参 考 文献 注释 部 分 讨论 了 放宽 这 些 假设 的 研究 工作 。 


9.4.2 推导 数据 模式 T, 和 抽取 程序 Ey 


给 定数 据 源 S 的 一 个 Web 页 面 集合 P= |p, ，…，p,| RoadRunner 通过 查看 集合 P 来 
推导 抽取 程序 Ey, FFM Ew 推导 模式 Ts。 在 本 节 的 剩余 部 分 ， 将 集中 讨论 推导 Ey 的 第 一 
Bs 从 Ey 中 推导 Ts 的 第 二 步 相对 比较 简单 。 


188 第 一 部 分 数据 集成 技术 基础 





为 了 推导 抽取 程序 Ey, RoadRunner 迭代 地 执行 。 它 首先 将 Ey 初始 化 为 页 面 集合 P 中 
W—-T+R po BR, Wi p, 可 以 看 成 是 一 个 只 能 匹配 p 的 正则 表达 式 。 因 此 ， 此 时 的 
Ey 只 能 匹配 pio WA RoadRunner 从 集合 了 中 取 男 一 个 页 面 p,， 并 试图 泛 化 抽取 程序 Ey, 
从 而 使 得 Ey 也 可 以 匹配 p,。 重 复 上 述 过 程 ，Roadrunner 最 终 返 回 一 个 被 泛 化 (以 最 小 的 
方式 ) 成 可 以 匹配 了 中 所 有 页 面 的 抽取 程序 Eyo 

我 们 现在 关注 这 个 泛 化 步骤 。 为 了 说 明 该 过 程 ， 我 们 将 使 用 图 9-10 中 的 例子 ， 这 里 
Ew 已 经 被 初始 化 为 页 面 p ， 必 须 将 其 泛 化 成 匹配 目标 页 面 p,。 我 们 按照 如 下 步 又 执行 。 









包装 器 “初始 页 面 p,): 目标 页 面 〈 页 面 p;): 

01: <HTML> 解析 01: <HTML> 

02: Books on the Topic: 02: Books on the Topic: 

03: <B> 03: <B> 

04: Database 字符 不 匹配 04: Data Integration 

05: </B> 05: </B> 

06: <UL> = 06: <IMG src=.../> 

07: <LI> 08: <LI> 

08-10: <I>Title:</I> 09-11: <|>Title:</I> 

11: Introduction to Databases 字符 不 匹配 12: Integrating XML 
12: </LI> Ter </LI> 

13: <LI> 44: Ls 4 | 
14-16: <I>Title:</I> 115-17: <I>Title:</I> 

17: Relational Databases 字符 不 匹配 | Data Integration | 


18: </LI> 








19: </UL> 标签 不 匹配 mw de ee = 
20: </HTML> ! <I>Title:</l> 

Information Fusion 
匹配 页 面 p, 后 的 包装 器 : 26: </UL> 


27: </HTML> 


<HTML>Books on the Topic:<B>#PCDATA</B> 
(<IMG src = .../> )? 
<UL> 


(<LI><I>Title:</l>#PCDATAS/LI>)+ 
</UL></HTML> 





图 9-10 将 目前 仅 能 匹配 页 面 p, 的 抽取 程序 E, 泛 化 为 也 能 匹配 页 面 户 


brid Ab At 

首先 将 目标 页 面 p, 转化 成 一 个 标记 序列 ， 这 里 的 每 个 标记 都 是 一 个 HTML 标签 或 者 
一 个 字符 串 (不 包含 任何 HTML 标签 ) 。 图 9-10 右 侧 显示 了 po 如 何 转化 成 27 个 标记 (R 
了 09 ~11、15 ~17 和 21 ~23 行 每 行 包 含 3 个 标记 外 ， 其 他 每 行 只 有 一 个 标记 ) 。 


PZ MFEIFE w KVER HERIT 

接 下 来 ， 应 用 Ew 来 匹配 页 面 p,。 继 续 我 们 的 例子 ， 目 前 Es 只 是 代表 页 面 户 的 正则 
表达 式 。 为 了 便于 匹配 p, Mp, RIE p 表示 为 每 行 一 个 标记 ， 如 图 9-10 左 侧 所 示 
(除了 08 ~ 10 行 和 14 ~ 16 行 ， 每 行 包含 3 个 标记 外 ) 。 

现在 自 项 向 下 逐 行 匹配 p, Mpo WREN p, 的 结尾 ， 则 Ly 成 功 匹配 p, 并 且 不 需要 
被 泛 化 。 否 则 ， 不 匹配。 字符 囊 不 匹配 涉及 两 个 字符 串 ， 如 pi 199844 “Database” $ p, 
的 第 4 行 “Data Integration”。 标 签 不 匹配 涉及 一 个 HTML 标签 与 一 个 字符 串 或 者 两 个 标 
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Z, i p, 的 第 6 行 <UL> 与 p, 的 第 6 行 <IMG sre =…/ >。 我 们 必须 泛 化 抽取 程序 Er 来 
解决 这 些 不 匹配 。 

不 难看 出 ， 如 果 出 现 字符 串 不 匹配 ， 那 么 我 们 只 是 发 现 了 一 个 新 属性 ， 并 且 这 两 个 字 
符 串 是 该 属性 的 两 个 不 同 值 。 为 了 解决 这 个 不 匹配 ， 通 过 添加 一 个 新 的 #PCDATA WRZ 
化 抽取 程序 E 从 而 捕捉 这 个 新 属性 。 例 如 ， 在 检测 到 p, 和 p 的 第 4 行 “Database” 和 
“Data Integration ”字符 串 不 匹配 后 ， 将 初始 的 正 w 从 

<HTML>Books on the Topic:<B>Database</B> 

泛 化 成 

<HTML>Books on the Topic:<B>\#PCDATA</B> 

RUAREKIN EBR ARERR ERAMATERA (itera 
tor) 或 者 可 选项 (optional) 造成 。 例 如 , $ 6 FTF <UL > 5 <IMG sre =…/ > 不 匹配 是 
因为 页 面 p, 中 的 一 个 可 选 图 片 。 另 外 ,页 面 p 的 第 19 行 <UL> 与 页 面 户 的 第 20 行 
<LI > 不 匹配 是 因为 一 个 迭代 器 ， 因 为 图 书 列表 的 长 度 各 不 相同 《Pi 中 有 2 本 书 与 p, 中 
有 3 本 书 ) 。 

当 出 现 标 签 不 匹配 时 ,我 们 首先 查看 是 否 是 因为 迭代 器 。 如 果 是 ,通过 泛 化 Ey 
来 纳入 这 个 迭代 器 。 否 则 ， 我 们 假设 它 是 因为 可 选项 造成 的 ， 并且 相应 地 泛 化 Ey 
(后 面 将 解释 为 什么 更 期 望 是 迭代 器 的 原因 ) 。 现 在 讨论 这 两 种 情况 ， 首 先 讨 论 可 选 
项 的 情况 。 


解决 可 选项 不 匹配 问题 

首先 ， 通 过 在 页 面 中 搜索 不 匹配 的 字符 串 来 检查 哪个 页 面包 含 可 选项 。 还 是 以 页 面 p， 
All p, 的 第 06 行 <UL> 与 <IMG sre =…/ > 不 匹配 为 例 。 有 如 下 两 种 情况 : 

1) FF E < UL > 是 可 选项 。 跳 过 它 以 后 ,我 们 应 该 可 以 继续 将 页 面 p, 的 
<IMG sre =…/ > 5 p, 剩余 部 分 中 第 一 次 出 现 的 <IMG sre =…/ > 匹配 。 

2) FITER <IMG sre =…/> 是 可 选项 。 跳 过 它 以 后 ,我 们 可 以 继续 将 页 面 p, 的 
< UL > 与 页 面 p 剩余 部 分 中 第 一 次 出 现 的 <UL> 匹 配 。 

因为 < UL > 出 现在 p 的 剩余 部 分 中 ( 即 < IMG sre =…/> 之 后), Jf A < IMG 
sre =…/ > 没有 出 现在 p, 的 剩余 部 分 ( 即 < UL > 之 后 ) ， 所 以 显然 符合 第 2 种 情况 ， 即 
<IMG src =…/ > 是 可 选项 。 

一 旦 找到 的 字符 串 是 可 选项 ， 泛 化 抽取 程序 Ey 的 工作 就 相对 比较 简单 了 。 继 续 上 述 
例子 ， 我们 通过 加 入 模式 ( <IMG src =…/ > ) KZA BE;， 然 后 继续 分 别 匹 配 p, 第 6 行 
All p, 第 7 行 的 <UL> 标 签 。 


解决 和 迭代 器 不 匹配 问题 


一 个 迭代 是 一 个 模式 的 重复 ， 我 们 将 其 称 为 一 个 方块 (square), Win, H p 包 
含 了 两 本 书 的 一 个 列表 ， 这 里 每 本 书 的 描述 即 为 形 如 <LIL> <I>Title: </1 >… </LI> 
的 一 个 方块 。 一 个 迭代 不 匹配 出 现在 两 个 列表 中 的 方块 数量 不 同 的 时 候 。 例 如 ， 页 面 户 
Al p 分 别 是 包含 2 本 和 3 本 书 的 列表 。 这 就 造成 了 pi 第 19 行 和 p, 第 20 行 的 迭代 不 
匹配 。 
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为 了 解决 这 种 不 匹配 ， 必 须 首先 找到 这 个 方块 ， 然 后 使 用 它们 来 找到 列表 ， 然 后 泛 化 
Ey 来 处 理 该 列表 。 令 这 两 个 列表 分 别 为 U=wiw…u AV =v on, Bu, Av, 都 是 方 
块 。 假 设 n<m， 直 到 遇 到 一 个 迭代 不 匹配 时 ,我 们 就 可 以 得 出 如 下 结论 : 已 经 成 功 地 匹 
Ac u, Mo, ws 和 vw E, EE) u, 和 vw。 继续 执行 ,直到 遇 到 vw,, 的 第 一 个 标记 时 出 现 不 
匹配 。 

这 意味 着 : a) 该 不 匹配 前 的 最 后 一 个 标记 一 定 是 wu, Alo, 的 最 后 一 个 标记 ， 即 一 个 方 
块 的 最 后 一 个 标记 ; b) 不 匹配 的 标记 之 一 一 定 是 w,; 的 第 一 个 标记 ， 即 一 个 方块 的 第 一 
个 标记 。 这 人 允许 我 们 知道 该 方块 的 整体 形式 。 例 如 ， 考虑 证 第 19 行 和 p, 第 20 行 不 匹配 。 
不 匹配 前 的 最 后 一 个 标记 是 </LI > ， 不 匹配 的 标记 是 </UL > 和 < LI> 。 因 此 ， 这 个 方块 
Æ </UL>- </LI> EX <LI >- </LI> 的 形式 。 接 下 来 ,我 们 搜索 页 面 p, Mp ( 仅 搜索 
不 匹配 点 以 后 的 部 分 ) 获得 这 种 形式 的 候选 方块 。 很 容易 看 出 ， 只 有 一 个 候选 方块 
<LI>…</LI>， 即 页 面 p, 的 第 20 ~25 行 区域 。 

一 旦 找到 一 个 候选 方块 ;5， 通 过 将 该 候选 方块 和 其 上 面 紧邻 的 方块 进行 匹配 的 方式 
向 后 “复查 ”。 在 上 例 中 ， 我 们 将 页 面 p 的 第 25 行 与 第 19 行进 行 匹配 开始 ， 然 后 第 24 
行 与 第 18 行 ， 等 等 。 如 果 匹 配 成 功 ， 则 判断 * 是 一 个 正确 的 方块 。 

下 一 步 ， 通 过 搜索 不 匹配 区 域 附近 连续 重复 出 现 的 * 来 泛 化 抽取 程序 Br， 然后 用 
(s) + 来 替换 它们 。 例 如 ， 如 图 9-10 所 示 ， 我 们 使 用 


<UL> 
(<LID><I>Title:</1>#PCDATA</LI>)+ 
</UL> 


来 替换 方块 <LIL>… </LI>, 

现在 可 以 描述 匹配 图 9-10 PRH p, Mp 的 整个 过 程 。 第 4 行 上 的 第 一 个 不 匹配 是 字 
符 串 不 匹配 。 通 过 向 Ey 中 添加 #PCDATA 来 解决 这 个 不 匹配 。 下 一 个 不 匹配 出 现在 第 6 
行 ， 是 标签 不 匹配 。 为 了 处 理 该 不 匹配 ， 首 先 假设 这 是 一 个 迭代 器 不 匹配 。 生 成 两 个 候选 
方块 : <UL> …</B > 和 <IMG sre =…/>…</B > 。 我 们 很 快 发 现 这 两 个 候选 方块 都 不 
是 正确 的 方块 ， 因 为 页 面 p 的 剩余 部 分 和 挛 的 剩余 部 分 〈 第 6 行 以 后 ) 都 不 包含 
</B>. 。 因 此 ， 这 不 是 迭代 器 不 匹配 。 接 下 来 ,我们 假设 这 是 可 选项 不 匹配 ， 并 且 使 用 
( <IMG src=…/>)? 来 解决 。 

然后 ， 继 续 匹 配 页 面 pi 的 第 7 行 和 疡 的 第 8 行 。 第 11 与 第 12 行 以 及 第 17 与 第 
18 行 的 字符 串 不 匹配 使 用 #PCDATA 来 解决 。 下 一 个 不 匹配 出 现在 第 19 行 与 第 20 行 ， 
这 是 标签 不 匹配 。 我 们 之 前 已 经 介绍 了 如 何 将 该 不 匹配 判断 为 迭代 器 不 匹配 。 接 下 
来 ， 继 续 匹 配 第 19 行 和 第 26 íT, AF p, Mp, 的 最 后 一 个 标记 位 置 。 此 时 ， 原始 的 
抽取 程序 Ey (Ri p,) 已 经 成 功 地 泛 化 为 图 9-10 底部 所 示 的 程序 ， 它 可 以 匹配 页 面 
Ppi 和 pzo 

上 述 例 子 也 清楚 地 说 明了 为 什么 在 标签 不 匹配 的 情况 下 ， 我 们 首先 要 寻找 一 个 迭代 
器 。 以 第 19 行 与 20 行 (<ZUL> 与 <LIL> ) 中 的 标签 不 匹配 为 例 。 如 果 首 先 查找 一 个 可 
选项 ， 则 将 抽取 程序 Ey 泛 化 为 : 假设 每 个 页 面包 含 2 本 书 ， 而 第 3 本 书 是 可 选项 。 这 将 
丢失 完整 的 图 书 列表 ， 因 此 这 显然 是 不 正确 的 。 

最 后 ， 要 注意 的 是 解决 迭代 器 不 匹配 问题 经 常会 涉及 递归 (recursion)。 为 了 说 明 这 
一 点 ， 以 图 9-11a 中 找到 的 候选 方块 为 例 。 要 判断 其 是 否 为 一 个 正确 的 方块 ， 我们 将 它 
和 图 9-11b 中 的 方块 向 后 匹配 。 首 先 ， VERE </LI> 和 < LI> ， 然 后 匹配 <B> Jane Lee 
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</B> 5 <B > James Madison </B >, FÆ, 我们 发 现 </B > Data Integration 的 标 
签 不 匹配 。 这 是 因为 每 个 图 书 方 块 包含 一 个 作者 列表 ， 并 且 上 述 图 中 的 两 个 方块 有 不 同 
的 作者 数目 ， 从 而 造成 了 不 匹配 。 因 此 ， 当 处 理 一 个 外 部 不 匹配 时 ， 可 能 会 遇 到 一 个 内 
部 不 匹配 ， 它 反 过 来 可 能 导致 更 深层 的 不 匹配 ， 等 等 。 很 明显 ， 这 些 不 匹配 必须 以 递归 
的 方式 从 里 向 外 地 处 理 。 


<LI> 


. ; <LI> 
Information Fusion 


Data Integration 


2B=Jane LeedB> <B>James Madison</B> 
</LI> 


</LI> 


<B>David Smith</B> 





a) b) 
图 9-11 —A i F A fA RASAS DE Bic a SE DR BVA 


PENG IZ 47 AY [el] ZEE 
正如 前 面 所 描述 的 那样 ， 为 了 泛 化 抽取 程序 Ey 来 匹配 一 个 页 面 p?， 必须 做 如 下 
考虑 : 


e 必须 检测 和 处 理 所 有 的 不 匹配 。 

© 对 每 个 不 匹配 ， 必 须 判 断 它 是 否 是 字符 串 不 匹配 〈 因 此 引入 一 个 新 的 属性 ) . 
代 器 不 匹配 或 者 可 选项 不 匹配 。 

e 对 和 迭代 器 或 者 可 选项 不 匹配 ， 我 们 可 以 搜索 程序 Ey 或 者 目标 页 面 p。 例 如 ， 如 
果 是 可 选项 不 匹配 ， 则 可 选项 可 能 在 Ey 或 者 在 页 面 p Po 

e 对 和 迭代 器 或 可 选项 不 匹配 ， 即 使 我 们 将 搜索 限制 到 仅仅 一 边 ， 仍 然 常 常 有 多 个 

候选 方块 和 候选 可 选项 需要 考虑 。 

© 为 了 解决 迭代 器 不 匹配 ， 可 能 首先 必须 递归 地 解决 多 个 内 部 不 匹配 。 

鉴于 上 述 几 点 ， 我 们 通常 要 面临 更 大 的 搜索 空间 。 在 每 个 决策 点 上 都 面临 多 种 选 
择 ， 当 某 个 选择 行 不 通 时 ， 必 须 回溯 到 最 近 的 决策 点 尝试 另 一 种 选择 。 实 际 上 ， 上 述 泛 
化 算法 的 运行 时 间 是 输入 长 度 的 指数 量 级 。 

因此 ，RoadRunner 采用 3 个 启发 式 来 减少 运行 时 间 。 第 一 ， 它 通过 排名 和 仅 获 取 前 
下 个 选项 来 限制 每 个 决策 点 的 选择 数量 。 例 如 ， 它 根据 长 度 来 排名 候选 的 选择 项 ， 然 后 
仅 考虑 前 4 个 选择 项 。 

第 二 ， 当 它 判 断 出 错 的 可 能 性 很 低 时 ，RoadRunner 不 允许 在 决策 点 上 回溯 。 例 如 ， 
当 判 断 不 匹配 是 因为 迭代 器 还 是 可 选项 时 ， 如 果 RoadRunner 已 经 找到 了 和 迭代 器 ， 则 它 
不 允许 进一步 回溯 。 也 就 是 说 ， 它 将 不 会 再 回 到 该 决策 点 来 探讨 该 不 匹配 可 能 是 由 于 一 
个 可 选项 造成 的 。 

最 后 ，RoadRunner 忽略 那些 被 判断 为 不 可 能 的 迭代 器 和 可 选项 模式 。 例 如 ， 它 不 会 
考虑 在 任意 一 端 以 一 个 可 选项 模式 分 隔 的 任何 迭代 器 或 可 选项 模式 ， 例 如 ((<HR>)? 
< LI > #PCDATA </LI>) Al (<BR>)? (<HR>)?。 


95 交互 的 包装 器 构建 
学 习 和 自动 方法 来 构建 包装 器 通常 使 用 启发 式 来 减少 搜索 包装 器 候选 空间 的 时 间 。 
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这 样 的 启发 式 并 不 完美 ， 因 此 这 些 方法 往往 很 脆弱 : 有 时 候 它 们 能 生成 正确 的 包装 器 ， 
有 时 候 不 行 ， 但 我 们 不 能 盲目 地 使 用 它们 ， 因 为 不 知道 它们 什么 时 候 是 正确 的 。 

交互 方法 通过 在 搜索 过 程 中 注入 用 户 反 馈 来 解决 这 个 问题 。 它 们 从 只 需要 少量 或 者 不 
需要 包装 器 开发 者 的 输入 开始 ， 搜 索 包装 器 空间 直到 出 现 不 确定 性 。 这 时 ， 它 们 请 求 用 户 
反馈 ， 然 后 继续 搜索 ， 直 到 找到 一 个 用 户 满意 的 包装 器 。 在 这 些 系统 中 ， 用 户 反馈 可 能 有 
多 种 形式 : 用 户 可 以 标记 一 个 新 的 Web 页面、 识别 正确 的 抽取 结果 、 直 观 地 创建 抽取 规 
则 、 回 答 系 统 提 出 的 问题 或 者 判断 页 面 模 式 。 这 些 系统 面临 的 主要 挑战 是 : 判断 何 时 请 求 
用 户 反馈 以 及 给 用 户 提出 什么 问题 。 

下 面 介绍 使 用 交互 方法 的 三 个 代表 性 工作 。 我 们 仅 介绍 这 些 工 作 的 基本 思想 ， 并 且 在 
参考 文献 注释 中 指出 更 加 详细 的 描述 。 


9.5.1 使 用 Stalker 交互 标记 页 面 


回想 一 下 ，Stalker 要 求 用 户 标 记 一 组 Web 页 面 ， 然 后 使 用 这 些 页 面 来 搜索 一 个 包装 器 。 
我 们 可 以 将 Stalker 修改 成 交互 式 的 ， 它 可 以 在 搜索 过 程 中 要 求 用 户 标记 页 面 。 具 体 来 说 ， 
Stalker 要 求 开发 者 标记 一 个 页 面 (或 者 一 些 页 面 ) 并 且 使 用 该 页 面 来 构建 一 个 初始 的 包装 
器 。 然 后 Stalker 可 以 交替 执行 搜索 和 征求 用 户 反馈 ， 直 到 它 找 到 一 个 合适 的 包装 器 。 为 了 判 
断 要 求 用 户 接 下 来 标记 哪个 页 面 ，Stalker 维护 两 个 候选 包装 器 ， 并 且 找 到 那些 导致 两 个 包装 
器 运行 结果 不 一 致 的 页 面 。 然 后 它 请 求 用 户 标 记 这 些 “问题 ” 页 面 之 一 。 

Stalker 采用 一 种 称 为 协同 测试 (co-testing) 的 主动 学 习 方式 ， 其 中 可 选 的 假设 (这 里 
指 的 是 包装 器 ) 在 一 个 新 的 页 面 上 进行 协同 测试 来 查看 它们 是 否 不 一 致 。 我 们 现在 详细 地 
介绍 交互 的 Stalker 以 及 它 的 协同 测试 机 制 。 

1) 初始 化 ”用 户 标 记 一 个 或 多 个 Web 页 面 。 在 我 们 的 例子 中 ， 为 了 开始 抽取 和 餐馆 的 
电话 号 码 ， 用 户 将 标记 图 9-12 中 的 电话 号 码 。 


Name:<i>Savory</i><p>Phone:<i>|(608) 263-4567|</i><p>Fax:(608) 523-4917 


9-12 ”为 了 开始 包装 器 的 构建 过 程 ， 交 互 的 Stalker 应 该 要 求 用 户 在 一 个 餐厅 地 址 上 标记 一 个 电话 号 码 


2) 学 习 两 个 包装 器 ” 接 下 来 ， 从 标记 的 页 面 中 学 习 抽取 电话 号 码 ， 即 学 习 标记 电话 
号 码 的 开始 和 结束 位 置 ( 见 9.3.2 节 )。 为 简单 ， 这 里 我 们 只 关注 学 习 标 记 电 话 号 码 的 开 
始 位 置 。 在 这 个 例子 中 ， 可 以 学 习 如 下 的 一 个 规则 : 

R, : SkipTo(Phone:<i>) 

这 称 为 正 向 规则 ， 因 为 它 从 开始 位 置 正 向 扫描 页 面 ， 直 到 到 达 Phone: <i> 的 结尾 停 
止 。 或 者 ， 也 可 以 学 习 如 下 的 一 个 反 向 规则 : 

Rz : BackTo(F ax), BackTo(() 

它 从 尾部 开始 向 后 扫描 页 面 ( 见 9.3.2 节 )。 这 两 个 规则 均 标 记 了 电话 号 码 的 起 始 位 
置 。 传 统 的 Stalker 只 学 习 这 两 个 规则 中 的 一 个 。 但 是 交互 的 Stalker 将 学 习 两 者 ， 因 此 从 
某 种 意义 上 说 是 学 习 了 两 个 可 选 的 包装 器 。 

3) 应 用 包装 器 查找 问题 页 面 ” 接 下 来 , > PP 是 提供 给 Stalker 的 未 标记 的 页 面 集合 。 
Stalker 查找 集合 P 中 所 有 使 得 两 个 包装 器 运行 结果 不 一 致 的 页 面 。 在 上 述 例 子 中 ， 即 那些 
使 用 正 向 和 反 向 规则 识别 出 两 个 不 同 的 电话 号 码 起 始 位 置 的 那些 页 面 。Stalker 可 以 随机 地 





选择 一 个 页 面 或 者 选择 差别 最 大 的 那个 页 面 。 

4) 征求 反馈 和 再 学 习 ”因为 规则 在 被 选择 的 页 面 p 上 运行 的 结果 不 一 致 ， 其 中 至 少 
有 一 个 肯定 是 错误 的 ， 所 以 用 户 反馈 可 以 帮助 我 们 确定 哪 一 个 是 错误 的 。 因 此 ， 从 未 标记 
页 面 集合 P 中 删除 页 面 p»， 请求 用 户 标 记 该 页 面 ， 并 将 其 添加 到 标记 页 面 的 集合 中 ， 然 后 
回 到 步骤 2 重新 学 习 规则 。 重 复 步 又 2 ~4 直到 集合 P 中 不 再 有 问题 页 面 出 现 ( 如果 已 经 
标记 了 集合 P 中 的 所 有 页 面 ， 则 可 以 通过 添加 更 多 未 标记 页 面 来 扩大 集合 P) 。 最 后 得 到 
两 个 包装 器 ， 可 以 将 其 中 一 个 或 者 两 个 包装 器 作为 输出 结果 。 


9. 5.2 使 用 Poly 识别 正确 的 抽取 规则 


我 们 要 介绍 的 第 二 个 交互 的 包装 器 学 习 系统 是 Poly， 它 在 多 个 方面 不 同 于 Stalker。 首 
先 Poly 也 采用 协同 测试 ， 但 它 维护 多 个 候选 包装 器 而 不 只 是 两 个 。 第 二 ， 它 将 包装 器 应 用 
到 页 面 ， 然 后 请 求 用 户 来 识别 正确 的 抽取 规则 ， 而 不 是 请 求 用 户 来 标记 一 个 页 面 。 最 后 ， 
Poly 使 用 DOM 树 和 视觉 模型 来 构建 包装 器 ， 而 不 是 使 用 字符 串 模 型 。 

1) 初始 化 ”Poly 假设 每 个 页 面 有 多 个 元 组 ， 并 且 用 户 想 要 抽取 这 些 元 组 的 一 个 子 集 。 
因此 ， 它 首先 要 求 用 户 通 过 突显 元 组 属性 的 方式 标记 页 面 上 的 一 个 目标 元 组 。 

例如 ， 以 图 9-13a 中 的 Web 页 面 为 例 。 假 设 我 们 想 要 抽取 表 “Books” 中 rating 字段 
为 4 的 所 有 元 组 。 然 后 ， 用 户 定义 输出 模式 的 属性 为 title、price 和 rating， 并 突出 元 组 
中 的 这 些 属性 ， 即 表 “Books” 中 的 元 组 (a, 7, 4)。 

2) 使 用 标记 的 元 组 生成 多 个 包装 器 ” 接 下 来 ，Poly 生成 一 个 包装 髓 的 集合 W， 每 
个 包装 器 从 当前 页 面 抽取 包含 标记 元 组 的 一 个 元 组 集合 。 在 上 述 例子 中 ，Poly 可 能 生成 
抽取 如 下 元 组 的 包装 器 : 1) 所 有 图 书 和 DVD 的 元 组 ; 2) 只 是 图 书 元 组 ， 3) rating 字 
段 为 4 的 图 书 和 DVD 元 组 ; 4) rating 字段 为 4 的 图 书 元 组 ; 5) 所 有 表 的 第 一 个 元 组 ; 
6) 只 是 第 一 个 表 中 的 第 一 个 元 组 。 所 有 这 些 包 装 器 都 可 以 抽取 已 经 标记 的 元 
4H(a, 7, 4). 

3) 征求 正确 的 抽取 结果 FK, Poy 将 包装 器 集合 多 中 的 包装 器 在 该 页 面 上 生成 
的 抽取 结果 显示 给 用 户 ， 并 要 求 用 户 识别 正确 的 结果 。Poly 然后 从 WwW 和 集合 中 删除 所 有 产生 
错误 结果 的 包装 器 。 

在 上 面 的 例子 中 ， 因 为 我 们 想 要 抽取 rating 字段 为 4 的 图 书 元 组 ， 所 以 用 户 将 识别 集 
A i(a, 7,4), (6,9, 4)} 为 正确 的 结果 。 这 将 删除 如 下 的 包装 器 : 1) 抽取 所 有 图 书 
Al DVD 元 组 ; 2) 只 是 图 书 元 组 ; 3) 所 有 表 的 第 一 个 元 组 ; 4) 第 一 个 表 的 第 一 个 元 组 。 
集合 W 仍 然 包含 在 当前 页 面 上 可 以 抽取 出 正确 结果 的 包装 器 ， 例 如: 1) 所 有 rating 字段 
为 4 的 图 书 和 DVD 元 组 ; 2) rating 字段 为 4 的 图 书 元 组 ; 3) 来 自 第 一 个 表 的 rating = 
段 为 4 的 所 有 元 组 。 

4) 通过 验证 页 面 评估 剩余 的 包装 器 PR, Poly 将 集合 多 中 的 所 有 包装 器 应 用 到 
未 标记 页 面 集合 0 上 来 查看 包装 器 抽取 结果 是 否 一 致 。 例 如 ， 当 抽取 图 9-13b 所 示 的 页 面 
it, “rating 字段 为 4 的 所 有 图 书 和 DVD 元 组 ”和 “抽取 rating 字段 为 4 的 图 书 元 组 ” 
的 这 两 个 包装 器 的 抽取 结果 是 不 一 致 的 ， 即 它们 抽取 了 不 同 的 元 组 集合 。 另 一 个 例子 ， 当 
抽取 图 9-13c 中 的 页 面 时 ,“ 抽 取 rating 字段 为 4 的 图 书 元 组 ”和 “抽取 第 一 个 表 中 rat- 
ing 字段 为 4 的 所 有 元 组 ”的 这 两 个 包装 器 的 结果 是 不 一 致 的 。 
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b) 
图 9-13 Poly 首先 要 求 用 户 突显 图 a) 中 Web 页 面 的 一 个 元 组 ， 
然后 使 用 b) Me) 中 的 页 面 评估 生成 的 元 组 
只 要 Poly 在 某 个 页 面 上 发 现 不 一 致 ， 它 就 重复 步骤 3 ~4。 即 ， 它 要 求 用 户 再 次 选择 
AE q 上 的 正确 结果 ， 从 浆 中 删除 所 有 不 能 产生 正确 结果 的 包装 器 ， 然 后 再 次 在 集合 Q 的 
页 面 上 进行 评估 。 当 W 中 所 有 包装 器 在 O 中 所 有 页 面 上 的 抽取 结果 均一 致 时 ，Ploy 结束 并 
返回 包装 器 集合 W。 
注意 ， 在 上 述 算法 的 步骤 3 中 ,为 了 帮助 用 户 快速 找到 正确 的 结果 ，Poly 可 以 将 结果 
以 其 为 正确 结果 概率 的 降序 进行 排序 。 而 且 ， 如果 用 户 没有 找到 正确 的 结果 ， 则 他 可 以 将 
Ploy 显示 的 一 个 结果 编辑 为 正确 值 ， 或 者 在 当前 页 面 上 标记 其 他 的 元 组 。 


生成 包装 器 


现在 ， 我 们 详细 分 析 poly 如 何 生成 包装 器 。 假 设 用 户 已 经 标记 了 图 9-13a 页 面 中 的 元 
组 (a, 7, 4). Poly 首先 将 该 页 面 转化 为 一 棵 DOM 树 ， 如 图 9-14 所 示 的 简化 树 。 接 下 
来 ，Poly 确定 突出 显示 的 属性 所 对 应 的 节点 。 它 们 是 图 9-14 中 用 方 框 标记 的 3 个 节点 。 
Poly 找到 这 3 个 节点 的 最 小 公共 祖先 节点 ， 它 是 图 中 症 为 8 的 节点 <tr > 。 我 们 将 该 节点 
称 为 一 个 元 组 节点 ， 因 为 它 的 子 树 包 含 了 单个 元 组 的 数据 。 


1 
html 
2 es ce RSS 5 
hi table At table 
| a ph | 42| \ 13 
Books tr AS tr tr DVDs tr tr r 


| td td td 


i L i h h 


图 9-14 图 9-13a 中 Web 页 面 的 DOM 树 


BERK, Poly 创建 一 个 类 似 XPath 的 表达 式 巴 ， 它 表示 从 根 节 点 到 标记 元 组 节点 之 间 
的 路 径 : EE =/html/table/tt。 然 后 将 应 用 到 整个 页 面 来 寻找 所 有 潜在 的 元 组 节点 ， 它 们 
是 图 中 ID 为 7~13 的 <tt> 节 点 。 即 从 根 到 潜在 元 组 节点 的 路 径 必须 与 根 节点 到 标记 元 组 
节点 的 路 径 相 似 。 
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下 一 步 ，Poly 创建 包装 器 ， 每 个 包装 器 抽取 一 个 潜在 元 组 节点 的 子 集 。 抽 取 过 程 是 自 
顶 向 下 逐 层 完成 的 ， 并 且 使 用 一 个 类 XPath 语言 来 编写 包装 器 。 在 第 一 层 ， 所 有 的 包装 器 
均 以 /html 开始 。 

在 DOM 树 的 第 二 层 ， 为 了 获得 底层 可 能 的 元 组 节点 ， 包 装 器 必须 可 以 “访问 ”节点 
3 或 节点 5， 或 者 这 两 个 节点 。 因 此 ， 我 们 将 该 包装 器 /html 细 化 成 一 个 包装 器 的 集合 : / 
html/table[ 1 | (该 包装 器 可 访问 节点 3)、/html/table[2]( 节 点 5)、/html/table (两 个 节 
点 ) 以 及 /html/table| prevsibling(hl ，books) =true] (节点 3) 等 。 这 里 的 prevSibling 是 一 
个 预定 义 的 谓词 ， 包 装 器 /html/table[ prevSibling(hl, Books) = true] 访问 table 节点 ， 该 
节点 紧 跟 在 一 个 名 字 为 “hl” 并 且 文 本 内 容 包含 “Books” 的 兄弟 节点 之 后 。 

在 第 三 层 ， 包 装 器 应 该 访问 潜在 元 组 节点 的 任意 子 集 ， 并 且 Poly 生成 相应 的 包装 器 。 
例如 ， 它 可 能 生成 可 以 抽取 第 一 个 表 的 所 有 元 组 的 包装 器 /html/table[ 1 ]/tr,， 或 者 生成 抽 
取 “Books” 表 中 所 有 元 组 的 包装 器 /html/table[ prevSibling( hl, Books) = true ]/tr 等 。Poly 
用 相似 的 方法 处 理 接 下 来 的 几 层 。 一 般 来 说 ，Poly 生成 的 包装 器 集合 依赖 于 Poly 用 来 编写 
包装 器 的 类 XPath 语言 的 表达 能 力 。 

为 了 创建 包装 器 ， 除 了 DOM 树 模型 外 ，Poly 还 使 用 页 面 的 一 个 视觉 模型 。 这 个 视觉 
模型 可 以 帮助 删除 不 正确 的 元 组 节点 。 例 如 ， 路 径 /html/table/tr 不 仅 可 以 抽取 正确 的 元 组 
节点 ， 而 且 还 可 能 抽取 到 广告 节点 ， 它 包含 了 很 大 的 广告 区 域 。 要 删除 这 些 广告 节点 ， 
Poly 可 以 计算 覆盖 一 个 元 组 集合 的 视觉 矩形 ， 然 后 删除 超出 预先 指定 大 小 的 矩形 以 及 相关 
的 元 组 集合 。 


9. 5.3 FA Lixto 创建 抽取 规则 


Lixto 系统 使 用 一 个 新 的 用 户 交互 模式 。 不 是 通过 标记 页 面 或 者 选择 抽取 结果 ， 而 是 
用 户 使 用 突显 和 对 话 框 在 Lixto 中 可 视 化 地 创建 抽取 规则 。 另 外 ，Lixto 不 同 于 我 们 前 面 提 
到 的 系统 ， 它 使 用 表达 能 力 强 的 类 似 于 datalog 的 语言 来 编写 抽取 规则 ， 这 种 语言 可 以 在 
页 面 的 DOM 树 模型 和 字符 串 模型 上 进行 定义 。 


FIEU PE Hh CEIA BA 

在 讨论 中 ,我 们 使 用 图 9-15a 中 的 页 面 为 例 ， 它 列 出 了 正在 拍卖 的 图 书 。 为 了 抽取 这 
些 图 书信 息 ， 用 户 可 以 可 视 化 地 创建 4 个 抽取 规则 。 第 一 个 规则 抽取 图 书本 身 〈( 即 包含 图 
书 的 页 面 区 域 ) ， 接 下 来 的 3 个 规则 分 别 从 页 面 中 抽取 每 本 书 的 标题 (title) 、 价 格 
(price) 和 竞价 (Bids ) 编号 。Lixto 在 内 部 将 这 些 规则 编写 成 如 图 9- 15b 所 示 的 规则 
R, ~ R。 在 本 节 的 结尾 ， 我 们 将 详细 解释 这 些 规则 。 

注意 ， 一 般 来 说 ， 规 则 可 以 依赖 于 另 一 个 规则 。 例 如 ， 规 则 R, 抽取 图 书信 息 ， 规 则 
R, JA R, 的 结果 中 抽取 标题 。 另 一 个 例子 ， 抽 取 币 种 〈 例 如 ,“$” L”) 的 规则 R 将 
依赖 于 R, AA R H R 输出 的 价格 (例如 ,， “ $15.00") 作为 输入 。 

现在 描述 用 户 如 何 可 视 化 地 创建 规则 。 在 上 述 例子 中 ， 用 户 首先 创建 一 个 抽取 图 书 的 
规则 。 为 此 ， 用 户 需要 突显 一 个 图 书 元 组 ， 即 图 9-15a 中 第 一 个 元 组 ( 即 ，“ Databases”) 。 
Lixto 将 这 个 元 组 映射 到 该 页 面 DOM 树 的 相应 子 树 上 ， 然 后 从 该 子 树 推断 来 创建 图 9-15b 
中 的 规则 R,， 此 规则 抽取 < table > 子 树 作为 图 书 元 组 。 接 下 来 ，Lixto 将 最 新 抽取 的 元 组 
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( 即 ,“DataMining” 和 “DataIntegration”) 显示 给 用 户 。 这 些 元 组 是 正确 的 ， 所 以 用 户 接 
收 规则 R，( 然而， 值得 注意 的 是 ， 用 户 并 没有 看 到 R, EH Lixto 内 部 保存 ) 。 

为 了 创建 一 个 规则 来 抽取 标题 ， 用 户 首先 需要 指定 这 个 规则 将 从 规则 R 识别 的 图 书 
实例 中 抽取 。 接 下 来 ， 用 户 突显 一 个 标题 ， 即 图 9-15a 中 的 第 一 个 标题 “Databases” Lix- 
to 使 用 这 个 标题 来 创建 一 个 内 部 规则 

title(S,X) — book(—,S),subelem(S, (*.td. + .content, |(href,,substr)|),X) 

它 的 意思 是 : 如 果 一 个 数据 项 在 一 个 表 的 <td > 单元 格 内 并 且 是 一 个 超 链接 ( 即 : 它 包含 
一 个 “href” 标 签 ) ， 则 该 数据 项 是 一 个 标题 。Lixto 使 用 这 个 规则 来 抽取 ， 并 给 用 户 显 示 
图 9-15a 中 所 有 的 标题 。 

用 户 发 现 这 个 规则 过 于 笼统 ， 因 为 它 不 仅 抽取 标题 而 且 还 有 竞价 (这 个 字段 也 是 超 链 
接 ) 。 因 此 ， 用 户 通过 指定 标题 之 前 的 100 个 字符 内 不 应 该 存在 其 他 的 数据 单元 格 来 限制 
该 规则 。 这 个 条 件 删除 了 所 有 的 竞价 信息 (因为 在 每 个 竞价 前 面 有 一 个 价格 数据 单元 )， 
生成 图 9-15b 中 的 规则 尺 ， 它 是 正确 的 并 被 用 户 所 接受 。 然 后 ， 用 户 通过 类 似 的 方法 创建 
规则 R; ~ Ry 分 别 用 来 抽取 价格 和 竞价 编号 。 
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R,: book(S,X) + page(S), subelem(S,.table,X) 

Rz: title(S,X) < book(-,S), subelem(S,(*.td.*.content,[(href,,substr)]),X), 
notbefore(S,X,.td,100 ) 

Ra: price(S,X) — book(-,S), subelem(S,(*.td,[(elementtext,\var{ Y].*,regvar)]),X), 
isCurrency(Y) 

Ra: bids(S,X) + book(-,S), subelem(S,*.td,X), before(S,X,.td,0,30, Y,-), price(-, Y) 

a) 列 出 一 组 拍卖 信息 的 Web 页 面 b) 由 Lixto 生 成 包装 这 些 页 面 的 一 个 类 datalog 的 程序 

图 9-15 


用 户 可 以 使 用 一 组 Lixto 定义 的 条 件 迭 代 地 限制 或 放松 一 个 规则 ， 例 如 目标 实例 1) 必 
须 出 现在 一 个 特定 元 素 之 前 或 者 之 后 ; 或 者 2) 不 能 靠近 一 个 特定 元 素 ; 或 者 3) 不 能 包 
含 一 个 特定 元 素 。 用 户 使 用 突显 和 对 话 框 来 指定 这 些 条 件 。 

除了 突显 和 对 话 框 外 ， 用 户 也 可 以 编写 正则 表达 式 或 者 引用 Lixto 定义 的 实际 概念 。 
例如 ， 如 果 想 要 抽取 币 种 (例如,，“$”、“”)， 他 应 该 指定 币 种 必须 是 价格 字符 串 的 子 
$ (例如 ,，“ $15.00”), 并 且 满 足 Lixto 提供 的 谓词 isCurrency() 。 这 样 使 Lixto 生成 如 下 
的 规则 (我们 接 下 来 将 解释 它 的 格式 ): 

Rs : currency(S,X) + price(—,S),subtext(S,\var[Y],X), isCurrency(Y) 

最 后 ， 我 们 要 注意 的 是 ,为 了 正确 抽 地 抽取 一 个 属性 〈 或 者 一 个 元 组 ) ， 用 户 通常 编 
写 多 个 规则 ， 每 个 规则 对 应 一 个 格式 的 变化 。 例 如 ， 如 果 图 书 标题 是 超 链 接 或 者 斜体 的 ， 
我 们 需要 两 个 独立 的 规则 。 然 后 ， 标 题 的 集合 是 这 两 个 规则 输出 结果 的 并 集 。 











RIIHI RAI 

Lixto 使 用 datalog 规则 来 编写 抽取 规则 。 在 抽取 规则 中 ， 头 部 谓词 指定 了 要 抽取 的 实 
例 ， 主 体 谓 词 (其 包括 DOM 树 上 的 谓词 ) 指定 一 些 必须 为 真 的 约束 。 

以 图 9-15b 中 的 规则 R, 为 例 。 头 部 谓词 book(S, X) 指定 从 $ 中 抽取 一 本 书 X。 主 体 
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谓词 page(S) 指定 $ 是 一 个 Web 页 面 ，subelem(S$，. table, X) 指定 X 是 5 的 DOM 树 中 
以 <table > 为 根 的 一 棵 子 树 。 通 常 ，subelem(S$，P,，X) 指定 下 是 $ 的 子 树 ， 该 子 树 的 根 
是 满足 类 XPath RAR P 的 一 个 节点 。 

在 规则 R, 中 ， 头 部 title($, X) HEX BMS 中 抽取 的 一 个 标题 。 主 体 谓词 book 
(-, S) 指定 $ 是 一 本 书 。 在 谓词 subelem(S, ( *. td. *. content,[ (href,, substr) ] ) ,X) 
中 ， 表 达 式 ( #*. td. *. content, [ (href, ，substr) ] ) 指定 DOM 树 中 通 向 包含 一 个 超 链 接 
(参见 表达 式 中 的 “href”) 的 <td> 节 点 的 路 径 。 因 此 ， 整 个 谓词 指定 XX 是 5 的 以 <td> 
为 根 的 一 棵 子 树 ， 并 且 包含 了 一 个 超 链接 。 最 后 ,谓词 notbefore(S, X, .td，100) 指 
定 在 X 之 前 距离 100 (该 距离 是 预定 义 的 概念 ) 以 内 不 存在 以 <td > 为 根 的 子 树 。 

图 9-15b 中 规则 R, 可 以 用 类 似 的 方法 解释 。 在 这 个 规则 中 ， 谓词 subelem(S,( *. td, 
[ (elementtext, \var[ Y] . * ，regvar) ] ) ，X) 和 isCurrency(Y) 共同 指定 : a) 价格 是 5S 
的 以 <td > 为 根 的 子 树 ; b) 该 子 树 的 文本 可 以 匹配 正则 表达 式 \var[Y] . * ， 它 是 后 面 跟 
着 0 个 或 多 个 字符 的 一 个 货币 符号 。 

最 后 ， 在 规则 R, 中 ， 谓 词 before(S, X, .td, 0, 30, Y) 和 price( -, Y) 共同 指定 : 
a) FET X TES 的 以 <td> 为 根 的 一 棵 子 树 ; b) 价格 必须 在 工 前 0 ~30 的 距离 以 内 。 

为 了 生成 上 述 规则 ，Lixto 在 页 面 的 DOM 树 上 归纳 。 例 如 ， 当 用 户 突显 一 个 图 书 元 组 
时 ，Lixto 将 该 元 组 映射 到 以 < table > 为 根 的 一 棵 子 树 ， 然 后 生成 规则 R,， 即 任何 以 
<table > 为 根 的 子 树 都 是 一 个 图 书 元 组 。 因 此 ， 与 Poly 生成 包装 器 的 方法 类 似 ，Lixto 使 
用 DOM 结构 生成 规则 。 然 而 与 Poly 不 同 的 是 ，Lixto 也 可 以 结合 页 面 的 字符 串 模 式 和 DOM 
树 模式 创建 规则 ， 例 如 抽取 货币 符号 的 规则 R, 。 


参考 文献 注释 


包装 器 构建 方面 的 研究 工作 可 以 追溯 到 1997 年 。 最 新 的 综述 包括 [115，362，392 ] 。 
各 种 页 面 模式 ， 包 括 扁 平 模式 和 舱 套 元 组 模式 ， 在 [392， 第 9 章 ] 中 讨论 。Gold [ 256, 
257 ] 研 究 表明 单纯 从 样本 中 学 习 正 则 语言 是 非常 难 的 。 在 这 个 工作 的 基础 上 ，GCrumbach 
和 Meccal 273 ] 、RoadRunner| 153, 154] WA ExAlg[ 33 ] 项 目的 后 续 研 究 讨 论 了 采用 一 种 文 
法 推导 方法 学 习 任意 页 面 模式 困难 的 原因 。 

包装 器 构建 的 早期 研究 采用 人 工 技 术 。 知 名 的 项 目 有 : W4F[503] 、Minerva[ 152], 
XWRAP[ 394], TSIMMIS[ 290, 291], WebOQL[39], 、FLORID [401] 、Jedi[ 308 ] 和 [41， 
276, 292]. 

使 用 学 习 技 术 的 包装 器 构建 系统 包括 : SHOPBOT[ 195], WIEN[358, 360], 
Stalker[ 449, ，450] 、SoftMealy[ 305], WL’[ 147] 和 [374] 。 文 献 [360] 介绍 了 HLRT 
包装 器 ， 并 且 在 1357，358 ] 中 进行 了 详细 地 讨论 。Stalker 包装 器 在 文献 [529 ] 中 介 
绍 。 在 学 习 方法 中 提 到 的 几 个 工作 ， 如 CRYSTAL[ 529]. WHISK[ 528], RAPIER 
[105] 和 SRV[151] ， 主 要 用 来 处 理 诸如 新 闻 文 章 这 类 自由 文本 。 从 自由 文本 中 抽取 
结构 化 数据 称 为 信息 抽取 (参见 [506]) ， 并 且 经 常 被 认为 是 与 包装 器 构建 不 同 的 研 
究 问 题 。 

自动 构建 包装 器 的 方法 包括 : IEPAD[ 116], RoadRunner[ 153, 154], ExAlg[ 33], 
DeLa[ 562 | 和 DEPTA[ 589 ] 。RoadRunner 假设 目标 正则 表达 式 中 不 包含 析 取 ， 并且 属 性 值 
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中 不 包含 HTML 标签 。 后 来 ， 这 些 假设 被 ExAlg[ 33] 放 宽 。 

交互 包装 器 构建 方法 包括 : NoDoSe[9]、 交 互 Stalker[ 451 ] Lixto[56, 57, 262], 
iFlex[519] 和 [322 ] 。 本 章 中 介绍 的 Poly 系统 是 基于 [322 ] 的 系统 。 系 统 W4F [503 | 和 
XWRAPL394 ] 也 采用 用 户 交 互 方法 。 

文献 [210] 介 绍 了 一 个 基于 本 体 的 包装 器 构建 方法 ， 它 受到 概念 模型 的 启发 。 [ 103] 
描述 了 一 个 基于 视觉 的 方法 。[211，393] 介 绍 了 在 多 记录 的 Web 页 面 中 发 现 记录 的 边界 。 
一 且 发 现 了 边界 ， 每 个 记录 中 的 自由 文本 就 可 以 使 用 [94] 中 的 技术 分 割 成 多 个 数据 区 域 。 

多 项 研究 工作 已 经 着 眼 于 在 多 个 网 站 之 间或 者 在 Web 范围 内 研究 包装 器 的 构建 。 
Changet 等 人 [139] 同 时 协作 地 处 理 多 个 数据 源 。Dalvi 等 人 [158] 和 Gulhane 等 人 [274] 研 
究 如 何在 Web 范围 内 抽取 结构 化 数据 。Cafarella 等 人 [102] 考 虑 在 Web 上 如 何 抽取 数 以 百 
万 的 HTML 表格 。 

包装 器 一 旦 构建 ， 随 着 时 间 的 推移 维护 一 个 包装 器 也 是 至 关 重 要 的 ， 因 为 底层 的 数据 
源 在 不 断 地 演化 。 有 几 个 工作 试图 检测 包装 器 的 失效 〈 即 抽取 错误 的 数据 ) [359，375 ， 
419 ] 和 修正 失效 的 包装 器 [375，429，441，493 ] 。Dalvi 等 人 [159] 和 Aditya 等 人 [474] 研 
究 了 一 个 互补 问题 : 构建 可 靠 的 包装 器 ， 它 不 会 因为 底层 数据 源 的 演化 而 变 得 失效 。 
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到 目前 为 止 ， 已 经 讨论 了 模式 映射 、 利 用 模式 映射 将 查询 转换 成 可 以 直接 提交 给 数据 
源 的 查询 重 写 、 远 端 数据 源 上 的 查询 处 理 等 关键 技术 。 这 些 技术 使 我 们 可 以 按 需 提取 最 新 
数据 ， 从 而 满足 用 户 的 信息 需求 。 然 而 ， 在 很 多 情况 下 这 种 完全 虚拟 的 数据 集成 框架 可 能 
并 不 理想 : 为 了 获得 更 好 的 性 能 、 更 好 的 数据 质量 、 表 达 更 为 复杂 的 查询 或 执行 更 复杂 的 
数据 转换 能 力 ， 我 们 可 以 容忍 在 交互 过 程 中 存在 稍微 旧 一 点 的 数据 。 其 基本 思想 是 利用 物 
化 (materialization) 来 实现 这 些 目 标 ， 即 预先 计算 或 缓存 集成 过 程 中 的 结果 。 

本 章 将 介绍 存储 、 利 用 本 地 物化 数据 响应 数据 集成 查询 的 各 种 方法 。 我 们 首先 概述 物 
化 的 两 个 主要 方法 以 及 它们 各 自 的 作用 。 然 后 ， 介 绍 使 用 部 分 物化 和 缓存 技术 来 提高 性 
能 。 最 后 ， 讨 论 了 一 种 新 兴 的 虚拟 集成 和 数据 仓库 集成 相 混合 的 技术 ， 即 如 今 在 许多 网 站 
的 设置 中 可 以 直接 查询 外 部 物化 的 扁平 文件 (flat-file) 数据 。 

许多 应 用 的 数据 集成 主要 目标 是 将 所 有 数据 集中 到 单个 集中 式 的 系统 中 ， 在 此 可 以 对 
数据 进行 深入 细致 的 分 析 。 例 如 一 个 零售 商 ， 它 将 每 个 交易 〈 即 某 个 零售 商店 中 某 个 商品 
的 每 个 购买 记录 ) 记录 到 一 组 数据 库 中 。 需 要 对 这 些 数 据 库 进行 优化 从 而 支持 交易 的 高 吞 
吐 量 ， 有 效 地 降低 付款 的 等 待 时 间 ， 帮 你 避免 购买 不 需要 的 物品 。 除 了 记录 交易 信息 外 ， 
零售 商 还 希望 对 他 们 的 销售 数据 进行 更 深层 次 的 分 析 。 例 如 ,他们 想 要 知道 在 肯 萨 斯 
(Kansas) 雨衣 的 销售 量 是否 更 高 ， 从 而 判断 其 库存 是 否 合适 。 为 了 支持 这 样 的 分 析 ， 零 
售 商 需要 创建 一 个 称 为 数据 仓库 的 独立 数据 存储 ， 为 了 支持 复杂 的 决策 支持 查询 ， 其 中 的 
数据 是 清洗 过 的 、 聚 集 的 并 采用 更 为 适合 的 形式 。 通 常 ， 数 据 仓 库 并 没有 我 们 书 中 前 面 提 
到 的 模式 映射 ， 而 是 使 用 一 系列 ETL (抽取 /转换 /加 载 ) 工具 。 在 第 一 阶段 ， 系 统 从 原始 
数据 源 ( 旧 的 业务 系统 或 者 数据 库 系 统 ) 中 抽取 数据 ， 并 且 将 数据 转换 成 可 以 进一步 处 理 
的 格式 。 在 第 二 阶段 ， 系 统 将 数据 转换 成 适合 数据 仓库 的 形式 。 这 里 可 能 涉及 选择 数据 行 
或 列 的 一 个 子 集 、 进 行 表 之 间 的 数据 连接 、 值 的 聚集 或 者 数据 值 的 转换 、 数 据 清 洗 或 标准 
化 等 操作 。 在 第 三 阶段 ， 将 数据 加 载 到 数据 仓库 中 ， 替 换 现 有 的 数据 或 者 直接 添加 该 数 
据 。 我 们 将 在 10. 1 节 介 绍 数据 仓库 。 

然而 ， 与 虚拟 集成 系统 类 似 ， 许 多 (ATA) ETL 操作 实际 上 都 可 以 通过 描述 的 方 
式 来 表示 。 例 如 ， 一 组 科学 家 ， 每 人 都 在 收集 领域 中 的 样本 数据 ， 并 且 每 人 都 想 与 他 人 共 
享 数 据 。 他 们 通常 将 数据 存在 电子 表格 中 ， 并 且 数 据 的 更 新 频率 也 相对 较 低 。 对 这 些 科 学 
家 来 说 ， 一 个 有 价值 的 数据 集成 系统 需要 满足 : 可 以 将 数据 加 载 到 一 个 信息 库 ( reposito- 
ry) 中 ， 并 且 可 以 查询 所 有 合作 者 的 数据 。 数 据 交 换 过 程 生成 一 个 物化 的 中 央 数据 库 ， 除 
了 与 之 前 讨论 的 虚拟 数据 集成 类 似 以 描述 的 方式 指定 数据 转换 外 ， 该 数据 库 更 类 似 于 数据 
仓库 。 与 数据 仓库 类 似 ， 当 数据 被 加 载 到 信息 库 时 已 解决 了 数据 的 异 质 性 。 这 个 方法 既 具 
有 数据 仓库 的 一 些 优点 〈 查 询 处 理 不 需要 查询 重 写 、 索 引物 化 数据 以 及 所 有 数据 都 被 放置 
到 某 个 局 部 的 DBMS) ， 同 时 也 具有 一 些 虚拟 集成 的 优点 〈 即 系统 可 以 利用 描述 性 映射 ) 。 
我 们 将 在 10. 2 节 介 绍 数据 交换 。 
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当然 ， 有 些 情况 下 人 们 既 想 要 物化 数据 的 一 些 性 能 优势 ， 同 时 也 希望 从 一 些 数据 源 获 
得 实时 的 数据 。10. 3 节 将 简单 地 讨论 基于 部 分 物化 和 缓存 技术 的 混合 集成 方法 。 

最 后 我 们 讨论 了 一 些 问题 ， 例 如 目前 任何 基于 广告 的 Web 平台 所 做 的 Web 流量 分 析 问 
题 。 这 里 ， 目 标 是 为 服务 提供 商 的 Web 服务 聚集 Web 流量 日 志 ， 尤 其 是 用 户 在 广告 上 的 点 
击 率 。 一 旦 数据 存放 在 同一 地 方 ， 该 任务 就 是 在 用 户 的 点 击 记 录 上 执行 各 种 分 析 : 针对 用 
户 、 广 告 活动 、 广 告 类 型 等 进行 分 组 。 通 常 ， 这 个 目标 需要 在 本 地 直接 处 理 Web 日 志 (而 
不 需要 先 将 它们 加 载 到 一 个 数据 库 ) ， 然 后 再 做 数据 的 大 规模 并 行 处 理 。 在 此 使 用 的 标准 工 
具 是 基于 Google 的 MapReduce 框架 或 者 Apache 的 开源 版 本 Hadoop MapReduce。 在 10.4 节 ， 
我 们 将 讨论 这 些 云 数据 处 理 框架 ， 以 及 它们 在 本 地 物化 数据 上 做 集成 数据 分 析 中 的 作用 。 


10. 1 数据 仓库 


在 企业 中 ， 传 统 的 仍 占 主导 地 位 的 信息 集成 方法 是 定义 和 创建 一 个 称 为 数据 仓库 ( 见 
图 10-1) 的 集中 式 数据 库 。 在 该 模型 中 ， 一 个 组 织 所 需要 的 所 有 数据 被 转换 成 一 个 目标 模 


R, 并 将 其 复制 到 单个 (并 行 或 分 布 式 
数据 仓库 
攻 | 


A) 数据 库 管 理 系统 (DBMS) 中 ， 并 定 





期 更 新 。 与 虚拟 数据 集成 不 同 的 是 ， 其 数 
据 是 按 需 从 数据 源 获取 ， 而 且 数 据 通常 位 
于 查询 系统 外 部 且 不 支持 更 新 或 随机 存 取 。 
另外 ， 用 于 加 载 数 据 到 数据 仓库 的 数据 转 
换 通常 由 一 系列 过 程 性 代码 来 执行 。 
尤其 是 在 商业 领域 中 ， 数 据 仓 库 承 担 
归档 和 决策 支持 的 和 角色。 由 于 各 种 原因 ， 
例如 审计 、 分 析 以 及 预测 等 原因 ， 企 业 可 
能 需要 维护 历史 数据 。 在 数据 源 现 有 状态 
下 进行 简单 的 查询 不 能 满足 上 述 需 求 
取而代之 的 是 ， 企 业 需 要 数据 在 不 同时 间 。 图 10-1 数据 仓库 的 光 辑 组 件 。 数 据 通过 转换 流 
点 的 一 个 主 档案 副本 ， 数 据 仓 库 恰 好 能 满 水 线 加 载 到 一 个 物理 的 数据 仓库 中 
足 该 需求 。 更 一 般 地 说 ， 作 为 企业 数据 一 
致 的 全 局 快照 ， 数 据 仓 库 拥 有 一 个 强大 的 DBMS 、 存 储 系统 和 CPU， 它 通常 可 以 用 来 执行 
决策 支持 或 联机 分 析 处 理 ( OLAP) 查询 一 一 查看 数据 聚集 特征 的 查询 可 以 帮助 企业 形成 
商业 决策 。 例 如 ， 沃 尔 玛 因 使 用 销售 数据 预测 各 个 门店 的 商品 库存 量 而 获得 了 很 大 的 声 
誉 。 这 样 的 查询 通常 有 多 层 聚 集 ， 并 且 可 能 包含 数据 挖掘 操作 。 类 似 地 ， 在 线 购 物 网 站 
(如 Amazon. com) 、 媒 体 网 站 (如 Netflix), HAR Safeway 这 样 的 超市 都 试图 构建 顾客 个 
人 信息 库 从 而 提高 其 向 顾客 推销 的 能 力 。 









主 数据 管理 


数据 仓库 的 核心 作用 可 以 在 主 数据 管理 (Master Data Management，MDM) 中 得 以 体 
现 。 主 数据 管理 使 用 中 央 数 据 仓库 作 为 企业 关键 业务 对 象 、 规 则 和 业务 流程 的 一 个 知识 存 
fifi. MDM 的 核心 是 整个 企业 使 用 术语 的 一 个 统一 标准 化 的 版 本 (无论 地 址 、 名 称 或 
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者 概念 ) 及 其 相关 元 数据 的 信息 。 理 想 情 况 下 ， 整 个 企业 的 系统 中 使 用 过 的 业务 对 象 及 
其 在 系统 中 使 用 过 的 数据 值 都 可 以 归结 为 主 数据 。 从 很 多 方面 来 看 ， 主 数据 库 仅仅 是 扮 
演 特定 角色 的 一 个 数据 仓库 。 

与 任何 数据 仓库 一 样 ，MDM 为 各 数据 所 有 者 及 其 利益 相关 者 提供 一 个 概览 所 有 数 
据 实体 的 视图 和 一 个 共同 的 中 间 表 示 形 式 。 不 过 ， 主 数据 库 也 是 一 个 中 央 信 息 库 ， 在 此 
可 以 获得 数据 的 相关 属性 (尤其 是 约束 和 假设 ) ， 因 此 成 为 所 有 元 数据 和 数据 的 家 园 。 
在 很 多 情况 下 ， 主 数据 库 也 可 以 响应 所 有 数据 拥有 者 的 查询 ， 这 样 他 们 可 以 直接 将 它 整 
合 到 系统 或 者 业务 过 程 中 。 这 被 看 成 是 改进 风险 管理 、 决 策 制定 和 分 析 的 一 种 方法 。 

最 后 ，MDM 通过 提供 数据 治理 (data governance) 的 处 理 功能 ， 实 现 对 数据 的 监控 和 
管理 。 在 大 型 企业 中 ， 根 据 业 务 需求 和 规则 来 协调 数据 设计 与 演化 是 一 个 挑战 性 问题 。 数 
据 治理 是 以 系统 的 方式 监督 数据 实体 创建 和 修改 的 过 程 和 组 织 。 特 别 重 要 的 是 ， 由 美国 萨 
班 斯 :奥克斯 利 法 案 (Sarbanes-Oxley Act) 提出 的 报告 要 求 ， 对 公共 企业 规定 强加 责任 和 
问 责 制 ， 促 进 了 数据 收集 和 表示 的 统一 监管 。 

实际 上 ， 定 义 一 个 数据 仓库 包括 两 个 主要 任务 : 进行 中 央 数 据 库 的 模式 和 物理 设计 
(10.1.1 节 ); 定义 一 组 抽取 /转换 /加 载 (ETL) 操作 (10.1.2 节 )。 


10.1.1 数据 仓库 设计 


数据 仓库 的 设计 可 能 不 仅仅 涉及 数据 集成 环境 中 的 中 介 模 式 设计 ， 因 为 数据 仓库 必须 
支持 非常 苛刻 的 查询 ， 例 如 查询 一 段 时 间 内 归档 的 数据 。 数 据 库 的 物理 设计 变 得 至 关 
重要 一 一 有 效 利用 多 个 机 器 或 硬盘 卷 上 的 分 片 、 索 引 的 创建 、 查 询 优 化 器 使 用 的 物化 视图 
的 定义 等 。 为 了 性 能 ， 大 多 数 数据 仓库 DBMS 被 配置 为 仅 供 查 询 的 工作 负载 ， 而 不 是 事务 
处 理工 作 负载 : 这 将 禁用 大 部 分 (昂贵 的 ) 用 在 事务 数据 库 中 的 一 致 性 处 理 机 制 。 

自 21 世纪 初期 以 来 ， 所 有 的 主流 商业 DBMS 都 试图 简化 数据 仓库 中 数据 库 物 理 设计 
的 任务 。 大 多 数 工具 提供 了 索引 选择 向 导 和 视图 选择 向 导 ， 它 利用 典型 查询 工作 负载 的 日 
志 ， 通 过 执行 《通常 在 夜间 ) 搜索 各 种 可 用 的 索引 或 物化 视图 ， 以 便 找 到 改进 性 能 的 最 佳 
组 合 策略 。 这 些 工具 有 帮助 ， 但 仍 需 专业 的 数据 库 管理 人 员 和 “性 能 调 优 人 员 ” 来 获得 数 
据 仓库 的 最 好 性 能 。 


10.1.2 ETL: 抽取 /转换 /加 载 


一 旦 数据 仓库 设计 完毕 并 配置 好 ， 就 需要 完成 初始 数据 加 载 和 日 常 的 维护 。 完 成 该 任 
务 的 很 多 工具 称 为 ETL 或 者 抽取 /转换 /加 载 ( extract/transform/load) LE, ETL 工具 负 
责 完 成 如 下 各 种 任务 。 





导入 过 滤器 

该 工具 包含 外 部 文件 格式 解析 器 ， 或 者 与 第 三 方 系统 (DBMS 或 其 他 应 用 ) 交互 的 驱 
动 器 。 外 部 数据 通常 可 能 并 不 是 来 自 于 一 个 关系 数据 库 ， 然 而 在 绝 大 多 数 情况 下 数据 仓库 
都 是 关系 型 的 。 
数据 转换 

数据 转换 模块 的 功能 通常 类 似 于 虚拟 数据 集成 系统 中 的 模式 匹配 : 它们 可 以 完成 连 
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接 、 聚 集 或 者 过 滤 数 据 。 


去 重 


当 多 个 记录 指向 同一 个 实体 时 ， 去 重 (或 者 实体 识别 ) 工具 往往 通过 启发 式 规则 来 设 
法 判断 。 该 技术 通常 基于 第 7 章 中 提 到 的 数据 匹配 技术 。 


概要 分 析 
数据 概要 分 析 工 具 常 常 通过 构建 表格 、 直 方 图 或 者 其 他 信息 来 总 结 数据 仓库 中 的 数据 属性 。 


质量 管理 


除了 去 重工 具 外 ，ETL 质量 管理 支持 还 包括 : 参照 数据 名 录 的 检测 (例如 ， 州 /省 的 
合法 缩写 列表 ) ， 针 对 已 知 业 务 规则 的 检测 (例如 ， 值 的 组 合约 束 )， 标 准 化 工具 (例如 ， 
邮政 地 址 的 规范 化 ) 以 及 记录 合并 。 <<< 


例 10. 1 以 一 个 电子 商务 网 站 为 例 。 在 数据 仓库 中 ， 我 们 从 客户 的 购买 记录 获得 一 
系列 发 票 记录 。 我 们 希望 将 这 些 数据 放 入 中 央 数 据 仓 库 中 ， 同 时 过 滤 错 误 的 数据 项 。 

为 此 ， 必 须 组织 一 个 ETL 流水 作业 ， 执 行 各 种 数据 分 割 、 过 滤 、 连 接 和 分 组 操作 。 如 
图 10-2 所 示 ， 第 一 个 操作 通过 将 单个 属性 (date/time) 分 割 成 独立 的 date 和 time 属性 
来 修改 模式 。 然 后 ， 过 滤 具 有 无 效 date/time 时 间 戳 的 记录 并 将 它们 写 到 日 志 中 。 接 下 
来 ， 将 每 个 记录 与 商品 数据 库 进 行 连接 ， 再 次 过 滤 无 效 的 记录 并 将 其 写 人 日 志 。 紧 接着 ， 
验证 每 个 记录 是 否 实际 对 应 一 个 有 效 的 顾客 ， 然 后 依照 惯例 将 无 效 记 录 写 人 日 志 。 最 后 ， 
根据 用 户 将 记录 分 组 ， 并 用 其 更 新 数据 仓库 中 顾客 的 余额 信息 。 


Filter 
invalid 
nvalid nvalid nvalid 

dates/times items. customers 


图 10-2 导 人 客户 记录 的 示例 ETL 流水 线 <<< 


上 述 例子 主要 由 一 系列 类 似 描述 性 模式 映射 的 操作 构成 。 然 而 ， 从 上 述 的 功能 列表 中 
我 们 可 以 清楚 地 知道 ETL 工具 可 以 完成 虚拟 数据 集成 映射 以 外 的 更 多 功能 。 这 个 基本 架构 
提供 了 很 大 的 灵活 性 和 表达 能 力 ， 尤 其 是 因为 ETL 是 一 个 离线 的 过 程 ， 所 以 允许 执行 时 间 
长 的 、 计 算 密集 型 的 任务 。 遗 憾 的 是 ， 其 灵活 性 存在 缺陷 ， 即 ETL 工具 和 方法 很 少 有 标 
准 。 不 同 供应 商 的 工具 有 完全 不 同 的 接口 ， 用 于 指定 工作 流 的 工具 也 不 尽 相 同 。 

此 外 ， 有 时 候 人 们 可 能 想 要 优化 加 载 的 过 程 ， 例 如 通过 预计 算 或 缓存 某 些 结果 或 者 在 
操作 之 间 采 用 共享 机 制 。 然 而 ， 大 多 数 ETL 框架 没有 这 样 的 灵活 性 。 因 此 ， 利 用 类 似 本 书 
前 面 提 到 的 描述 性 映射 替换 一 些 ETL 操作 是 非常 有 意义 的 。 由 此 提出 了 使 用 描述 性 映射 计 
算数 据 仓 库 的 问题 ， 称 为 数据 交换 (data exchange) ， 接 下 来 我 们 讨论 这 个 问题 。 


records 







Customer 
balance 





Invoice 
line items 
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10.2 数据 交换 : 描述 性 仓库 


正如 前 面 一 节 讨论 的 ， 数 据 交 换 的 基本 思想 是 : 利用 描述 性 模式 映射 来 指定 数据 转 
换 ， 从 而 支持 一 个 类 似 数据 仓库 的 数据 集成 环境 。 在 此 模式 下， 就 像 在 一 个 传统 的 数据 集 
成 方案 中 每 个 数据 源 可 能 有 一 个 包装 器 ， 但 来 自 数据 源 的 所 有 数据 都 将 被 提取 、 根 据 模式 
映射 转换 、 存 储 到 集中 式 的 仓库 或 在 一 个 离线 步骤 中 的 目标 数据 实例 中 。 用 户 可 以 像 在 数 
据 仓库 中 一 样 直接 查询 目标 数据 实例 。 

在 指定 数据 交换 设置 中 ， 假 设 所 有 的 数据 源 均 已 经 被 “包装 ”， 使 得 我 们 可 以 像 关 系 
型 数据 一 样 来 访问 它们 的 数据 。 因 此 ， 将 这 些 数 据 源 的 所 有 关系 看 成 是 单个 数据 源 模式 S 
的 一 部 分 ， 并 将 数据 仓库 中 的 所 有 关系 看 成 是 目标 模式 7 的 一 部 分 。 

形式 化 地 ， 给 定 S 和 7T， 模式 5 的 一 个 实例 7， 以 及 S$ 和 了 之 间 的 一 个 语义 映射 ， 数 据 
交换 问题 是 生成 目标 模式 7 的 一 个 合适 的 实例 。 这 里 ，3$ 是 一 个 数据 源 的 模式 ，7 是 物化 
数据 存储 的 中 介 模 式 。 数 据 交 换 面 临 挑战 是 : 给 定 5 的 一 个 实例 7， 存在 7 的 很 多 可 能 实 
例 ， 但 是 我 们 需要 从 中 找到 一 个 满足 某 些 特性 的 实例 。 下 面 形 式 化 地 讨论 该 问题 。 


10.2.1 数据 交换 设置 


在 数据 交换 的 讨论 中 ， 我 们 将 使 用 本 书 第 3 章 简单 介绍 并 在 文献 中 经 常 使 用 的 元 组 生 
成 依赖 的 概念 。 回 想 一 下 ， 元 组 生成 依赖 是 用 来 表示 GLAV 映射 的 一 个 可 选 表达 式 。 元 组 
生成 依赖 的 表达 式 形 如 : 。 7 oe E 

(YX) (Xi) ,ss (Xn) > CAV), O) rest (Y,) 

这 里 ，…，s 是 数据 源 模式 $ 中 的 关系 , 4, --, 4 ERRER T PUAA, BEX B 
XX…U…XX, TFE, HERE Y EY UY, 的 子 集 。 变 量 Y 不 会 出 现在 乱 …U… 贸 , 中 。 

虽然 我 们 主要 关注 仅 包 含 模式 映射 的 数据 交换 设置 ， 但 在 某 些 设置 中 也 想 要 确保 目标 
实例 满足 目标 模式 7 上 的 某 些 约束 。 为 了 建 模 这 些 约束 ， 我 们 将 目标 约束 引入 数据 交换 设 
置 。 形 式 上 ， 假 设 已 有 以 下 两 种 形式 的 约束 集合 Cy: 

1) 元 组 生成 依赖 ， 其 中 s, 和 是 7 中 的 关系 ,或 者 

2) 等 值 生成 依赖 ， 其 公式 形式 为 

(4Y)6(%) pet) + = Y,) 

数据 交换 设置 的 形式 化 定义 如 下 所 示 。 

定义 10. 1 (数据 交换 设置 ) 一 个 数据 交换 设置 是 一 个 元 组 (S, T, M, C), P 
S 是 一 个 数据 源 模式 ，T 是 一 个 目标 模式 ，M 是 描述 S 和 了 之 间 语 义 映 射 的 一 个 元 组 生成 
依赖 集合 ， 并 且 Cr 是 目标 模式 T 上 的 一 组 约束 。 


例 10.2 考虑 如 下 的 例子 ， 这 里 数据 源 模式 S 有 两 个 关系 。 关 系 Teaches 存储 了 教 
授 和 学 生 对 ， 其 中 学 生 选 修 该 教授 的 一 门 课程 ， 关 系 Adviser 存放 (adviser, student) 
元 组 。 目 标 模式 7 了 有 3 个 关系 : Advise 和 Adviser 相同 ，TeachesCourse 表示 教授 所 教 
的 课程 ，Takes 存储 学 生 选 修 的 课程 。S 和 7 的 模式 映射 为 : 

rı : Teaches(prof, stud) 一 3D Advise(D,stud) 

r2 : Teaches(prof, stud) + 3C TeachesCourse(prof,C), Takes(C,stud) 


r3 : Adviser(prof, stud) 一 Advise(prof, stud) 
ra : Adviser(prof, stud) + 3C, D TeachesCourse(D, C), Takes(C,stud) <<< 


[276 | 


278 
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10. 2.2 数据 交换 解 


数据 交换 的 解 是 目标 模式 的 实例 ， 其 满足 数据 交换 设置 中 的 约束 。 

定义 10. 2 (数据 交换 解 ) 令 忆 =(3，7，M，Cr) 是 一 个 数据 交换 设置 。 令 了 是 3 
的 一 个 实例 。 了 的 实例 J 称 为 万 和 1 的 一 个 数据 交换 解 ， 当 

L (7，J) 满足 模式 映射 及， 并 且 

2. J 满足 约束 集合 Cro 


例 10.3 给 定 例 10. 2 中 的 模式 3S， 考 虑 如 下 实例 1。 
I ={Teaches(Ann, Bob), Teaches(Chloe, David), 
Adviser(Ellen, Bob), Adviser(Felicia, David)} 


7 的 一 个 数据 交换 解 为 : 


Jo = {TeachesCourse(Ann, Cı), Takes(C1, Bob) 
TeachesCourse(Chloe, C2), Takes(Co, David) 
Advise(Ellen, Bob), Advise(Felicia, David)} 


如 本 例 中 所 见 的 ， 在 数据 交换 解 的 元 组 中 包括 两 种 类 型 的 值 : 来 自 原始 实例 7 的 常 
量 ; 没有 出 现在 1 中 的 新 符号 。 直 观 地 说 ， 这 个 称 为 变量 (有 时 称 为 标记 为 空 ) 的 新 符号 
代表 某 个 实例 的 不 完整 信息 。 更 准确 地 说 ,我 们 知道 变量 有 某 个 取 值 ， 但 并 不 知道 其 准确 
值 是 什么 。 例 如 ,在 J PEE C, AC, 代表 了 某 个 未 知 值 ， 表 示 我 们 知道 Ann 和 Chloe 
一 定 教 了 一 些 课程 ， 但 是 并 不 知道 确切 的 课程 是 什么 。 

下 面 也 是 /的 数据 交换 解 : 


J = {TeachesCourse(Ann, Cı), Takes(C1, Bob) 
TeachesCourse(Chloe, C2), Takes(C2, David) 
Advise(Dı, Bob), Advise(D2, David) 
Advise(Ellen, Bob), Advise(Felicia, David)} 


J = (TeachesCourse(Ann, C1), Takes(C), Bob) 
TeachesCourse(Chloe, C1), Takes(C;, David) 
Advise(Ellen, Bob), Advise(Felicia, David)} 


KP I 比 Jo 多 两 个 Advise 元 组 。 这 两 个 元 组 包含 新 的 变量 。 除 了 使 用 变量 C 替代 
变量 C, AC, Sb, SBI, 与 了 使 用 的 变量 完全 相同 。 接 下 来 ， 我 们 将 看 到 J eI KI A 
有 更 多 理想 的 特征 。 <<< 


10. 2.3 通用 解 


正如 前 面 提出 的 ， 数 据 交换 的 挑战 是 寻找 在 某 种 情况 下 比 其 他 解 更 好 的 数据 交换 解 。 在 本 
节 中 ,我 们 讨论 辨别 数据 交换 解 的 两 个 属性 。 第 一 个 属性 是 确保 解 不 会 丢失 任何 信息 ， 通 用 解 
满足 这 一 属性 。 第 二 个 属性 是 确保 解决 方案 尽 可 能 的 小 ， 核 心 通用 解 满足 这 一 属性 。 


例 10.4 回 到 例 10.3 中 ,我 们 发 现 解 o 并 不 完全 令 人 满意 。 尤 其 是 ， 对 Ann 和 
Chloe 所 教 的 课程 使 用 相同 的 变量 C, ， 意 味 着 他 们 教授 同一 门 课程 。 然 而 ， 原 始 的 实例 / 
或 模式 匹配 中 并 没有 隐 含 该 等 值 的 含义 。 从 某 种 程度 上 说 ， 实 例 Jo 比 其 他 解 更 具体 。 <<< 


直观 地 ， 通 用 解 是 指 那些 不 丢失 或 添加 任何 信息 的 解 。 我 们 形式 化 地 描述 该 属性 的 方 
法 是 ， 要 求 一 个 通用 解 可 以 同 态 地 映射 到 任何 其 他 的 通用 解 。 
在 定义 同 态 时 ， 我 们 用 (表示 5 的 实例 中 的 常量 集合 。 除 了 < 中 的 常量 外 ，7 的 实例 也 
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可 以 包含 取 自 一 个 无 穷 的 、 假 设 与 (不 相交 的 字母 表 Y 的 变量 。 279 
定义 10. 3 (实例 同 态 ) 令 儿 和 J 是 模式 了 的 两 个 实例 。 

e 一 个 映射 hh JJ, BI, 到 J 的 一 个 同 态 ， 如 果 

o 对 任意 ceC, h(c) =c, 
o 对 任意 元 组 R(al，…, a,) eJ,, 元 组 R(h(al), …, h(a,))eJ,。 

e 如 果 有 同 态 h: Jos), Fh’: h>h, WI, I, RASH. 

现在 我 们 可 以 定义 通用 解 。 在 例 10.3 中 , HJA Jo 是 通用 解 , 但 Ji 不 是 。 

定义 10. 4 (WA) 4 D=(S, T, M, Cr) 是 一 个 数据 交换 设置 ， 并 且 令 了 是 4 
的 一 个 实例 。 如 果 J 是 和 1 的 一 个 数据 交换 解 ， 并 且 对 D 和 了 的 其 他 任意 的 数据 交换 解 
几 ， 都 存在 一 个 同 态 映射 尹 : Jol’, WAAR 是 DD 和 了 的 一 个 通用 解 。 

可 以 证 明 ， 在 M 和 C, 上 存在 一 个 通用 解 当 上 且 仅 当 有 忆 和 /的 一 个 数据 交换 解 ， 并 且 
该 通用 解 可 以 在 实例 1 大 小 的 多 项 式 时 间 内 构建 。 可 以 很 容易 证 明 : 如 果 Cr 为 空 ， 则 一 
个 数据 交换 问题 总 是 存在 一 个 通用 解 。 当 Cy 包含 等 值 生成 依赖 时 ， 可 能 出 现 通 用 解 不 存 
在 的 情况 。 

接 下 来 讨论 C7 为 空 的 情况 ,我 们 可 以 使 用 一 个 经 典 算法 chase 来 创建 一 个 通用 
解 。 非 形式 化 地 ，chase 依次 考虑 M 的 每 个 公式 r。 如 果 该 算法 为 的 左 侧 找到 一 个 变 
量 代 换 ， 并且 7 的 右 侧 没有 出 现在 数据 交换 的 解 中 ， 则 它 添加 一 个 合适 的 元 组 到 解 
中 。 在 创建 新 元 组 时 ， 该 算法 使 用 新 的 变量 来 蔡 换 上 中 的 了 。 算法 chase 如 算法 10 
所 示 。 

例 10.5 继续 我 们 当前 的 例子 ， 映射 M 和 实例 7 为 : 

rı : Teaches(prof, stud) 一 3D Advise(D,stud) 

r2 : Teaches(prof, stud) 一 3C TeachesCourse(prof,C), Takes(C,stud) 


r3 : Adviser(prof, stud) 一 Advise(prof, stud) 
r4 : Adviser(prof, stud) 一 3C, D TeachesCourse(D, C), Takes(C,stud) 


I = {Teaches(Ann, Bob), Teaches(Chloe, David), 
Adviser(Ellen, Bob), Adviser(Felicia, David)} 
在 实例 上 上 应 用 算法 10 中 的 chase 算法 生成 如 下 的 实例 J: [280 
{Advise(C,, Bob), Advise(C2, David) 
TeachesCourse(Ann, C3), Takes(C3, Bob), 
TeachesCourse(Chloe, C4), Takes(Cy, David), 
Advise(Ellen, Bob), Advise(Felicia, David)} 


由 7 生成 前 两 个 事实 。 接 下 来 的 4 个 事实 由 7, 生成 ， 最 后 两 个 事实 由 7， 生成。 映射 
AR rn 并 没有 向 解 中 添加 任何 新 的 事实 。 <<< 


算法 10 CreateUniversalSolution 








输入 : 数据 交换 设置 (S, T, M) 和 5 的 一 个 实例 1。 
输出 : 包含 一 个 通用 解 的 数据 实例 Jo 
令 J= 包 
while 新 的 元 组 可 以 插入 J 中 do 
令 re 肝 的 形式 为 (VX)s (X), s (XC AVY), =, CY) 
令 由 是 从 针 到 7 中 常量 的 一 个 映射 ， 形 式 为 sy))，…, s, (W(X,))es 
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AY! =(Y,)1<i<l 
让 不 存在 从 到 中 常量 的 一 个 映射 使 得 (gb(Y’)),，…, )(6(%)) eJ then 
令 几 是 一 个 映射 ， 它 将 每 一 个 变量 YeY' 映 射 到 没有 在 了 中 出 现 的 新 变量 


EAn), e, 4(p(YI)) 到 J 
end if 
end while 
return J 





10.2.4 核心 通用 解 


通用 解 的 一 个 问题 是 ， 它 们 仍然 可 能 是 任意 大 小 的 。 为 了 究 其 原因 ， 我 们 分 析 在 我 们 
的 例子 中 可 能 生成 如 下 的 数据 交换 解 。 


Jm = {TeachesCourse(Ann, Cı), Takes(C1, Bob) 
TeachesCourse(Chloe, C2), Takes(C2, David) 


TeachesCourse(Ann, Czm—1), Takes(C2,—1, Bob) 
TeachesCourse(Chloe, Czm), Takes(Com, David) 
Advise(Ellen, Bob), Advise(Felicia, David)} 


这 个 例子 表明 ， 实 际 上 可 以 创建 任意 大 小 的 一 个 通用 解 。 显 然 ， 在 数据 交换 场景 下 我 
们 希望 物化 最 小 的 通用 解 。 下 面 定义 了 核心 通用 解 ， 它 是 最 小 的 通用 解 。 

为 了 定义 核心 通用 解 ， 首 先 定 义 数据 库 模 式 的 子 实例 。 

定义 10.5 ( 子 实例 ) 令 7T,,…，, 7 是 模式 7 中 的 关系 ， 并 且 令 J 是 了 的 一 个 实例 ， 
它 包含 关系 7 的 元 组 tf， 其 中 1<i<m。 令 4 是 实例 J 的 元 组 中 出 现 的 常量 和 变量 的 集合 。 

令 呈 是 7 了 的 一 个 实例 ， 它 包含 关系 实例 全 ，…， UC 并且 令 B 为 J 中 出 现 的 常量 和 变量 
的 集合 。 

WR BCA Ht Gt, 其 中 1<j<m， 则 称 J 是 的 一 个 子 实例 。 如 果 这 两 个 包含 关系 
中 有 一 个 是 真 包含 ， 则 J 是 ] 的 一 个 真子 实例 。 

我 们 定义 的 核心 通用 解 是 那些 不 存在 其 子 实例 也 为 通用 解 的 通用 解 。 

定义 10. 6 (核心 通用 解 ) 令 D=(S, T, M, Cr) 是 一 个 数据 交换 设置 ， 并 且 令 1 了 
是 5 的 一 个 实例 。 如 果 J 是 DD 和 了 的 一 个 通用 解 ， 并 且 不 存在 某 个 解 既 是 ] 的 真子 实例 也 
是 D 和 7 的 通用 解 ， 那 么 称 为 D 和 1 的 一 个 核心 通用 解 。 

可 以 证 明 ， 一 个 数据 交换 设置 的 所 有 核心 通用 解 都 是 同 构 的 。 然 而 ,一般 来 说 要 找到 
一 个 核心 通用 解 很 难 ， 很 多 情况 下 可 以 在 实例 1 大 小 的 多 项 式 时 间 内 完成 。 算 法 11 是 当 
Cr 为 空 时 找到 核心 通用 解 的 一 个 贪心 算法 。 目 前 ,一 些 研究 工作 已 经 提出 了 更 多 寻找 核 
心 通用 解 的 有 效 算法 ， 但 这 个 贪心 算法 很 好 地 说 明了 其 主要 思想 。 


例 10.6 将 算法 11 中 的 贪心 算法 用 到 例 10. 5 创建 的 通用 解决 方案 中 。 
{Advise(C), Bob), Advise(C2, David) 

TeachesCourse(Ann, C3), Takes(C3, Bob), 

TeachesCourse(Chloe, C4), Takes(C4, David), 

Advise(Ellen, Bob), Advise(Felicia, David)} 


事实 Advise(C,, Bob) 和 Advise(C,, David) 将 被 删除 ， 因 为 删除 它们 也 可 以 满 
足 Tro 其 他 所 有 事实 必须 保留 在 J 中 。 <<< 
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算法 11 CreateCoreUniversalSolution 


输入 : 数据 交换 设置 D=(S，T，M); 3 的 一 个 实例 1; D 和 了 的 一 个 通用 解 。 
输出 : 更 新 过 的 包含 核心 通用 解 的 数据 实例 J。 





while J 中 有 一 个 元 组 上 使 得 |J-i} 满足 Mdo 
从 了 中 删除 元 组 
end while 


return J 


10.2.5 查询 物化 信息 库 


现在 ， 需 要 从 GLAV 模式 映射 描述 的 一 个 数据 源 集合 创建 物化 信息 库 。 物 化 信息 库 是 
数据 交换 的 解 ， 这 里 5 是 一 个 数据 源 并 且 了 是 物化 存储 库 的 模式 。 我 们 可 以 分 别 为 每 个 数 
据 源 创 建 这 样 的 一 个 解 并 将 它们 合并 起 来 。 

我 们 需要 解决 的 最 后 一 个 问题 是 如 何 查询 物化 信息 库 。 幸 运 的 是 ， 可 以 利用 为 查询 重 
写 和 逆 规 则 而 开发 的 机 制 。 有 具体 来 说 ， 以 下 定理 表明 ， 可 以 通过 在 物化 信息 库 中 计算 并 且 
仅 保留 不 包含 变量 的 结果 组 来 响应 查询 。 

定理 10.1 令 $ 是 一 个 数据 源 的 集合 ， 了 是 物化 信息 库 的 模式 。 令 有 M 是 S 和 7 之 间 
的 一 组 GLAV RH}, SLASHES, JÆ (S, T, M) 和 1 的 一 个 通用 数据 交换 解 。 

信 @ 是 了 上 不 包含 比较 谓词 的 连接 查询 的 并 集 。 令 0@(J) 是 将 Q 应 用 到 上 的 结果 。 
ADD'R) 的 子 集 ， 它 包括 来 自 了 的 仅 包 含 常量 的 元 组 。 

NO) "恰好 是 O 的 确定 应 答 。 


10.3 缓存 及 部 分 物化 


与 虚拟 集成 系统 相 比 ， 物 化 允许 我 们 在 大 量 (尤其 是 历史 ) 数据 上 执行 计算 密集 型 和 
磁盘 密集 型 查询 。 然 而 ， 另 一 方面 ， 物 化 经 常 在 数据 源 更 新 时 间 和 更 新 结果 出 现在 集成 数 
据 实例 的 时 间 之 间 产 生 延 迟 ， 因 此 在 用 户 的 查询 结果 上 也 有 更 新 延迟 。 在 类 似 客 户 关系 管 
理 这 样 的 场景 中 这 种 延迟 是 一 个 问题 ， 这 里 可 能 需要 连接 多 个 内 部 和 外 部 数据 库 的 状态 ， 
以 及 航运 公司 、 供 应 商 等 的 Web 服务 。 

当然 ， 在 实际 中 有 很 多 混合 的 方法 解决 这 些 问 题 。 通 常 ， 一 些 数据 源 和 关系 的 更 新 较 
为 频繁 。 例 如 ， 虽 然 在 账单 系统 中 个 别 商品 项 目的 更 新 很 频繁 ， 但 在 主 数据 库 管理 系统 中 
业务 词汇 不 可 能 频繁 地 更 新 。 

因此 ， 在 实际 中 ， 大 多 数 集成 系统 无 论 是 设计 成 数据 仓库 还 是 虚拟 集成 (“企业 信息 
集成 ”或 者 EI) ， 对 那些 不 需要 100% 最 新 或 者 很 少 改 变 的 数据 采用 缓存 和 部 分 物化 技 
术 ， 对 其 他 数据 使 用 虚拟 集成 技术 。 我 们 简单 地 讨论 “混合 ”模型 的 各 种 可 能 的 方法 ， 这 
里 的 查询 可 能 在 中 央 集 成 系统 中 的 物化 数据 上 执行 ， 而 不 是 在 远程 数据 源 上 重 构 。 


在 虚拟 集成 环境 中 缓存 和 直接 重用 


在 虚拟 集成 系统 中 为 了 获得 物化 方法 的 优点 ， 一 个 简单 、 低 维护 的 方法 是 直接 缓存 查 
询 的 结果 ， 并 且 使 用 基于 视图 的 查询 处 理 ( answering-queries-using-views) 算法 (参见 第 2 
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章 ) 重 写 后 续 查 询 从 而 实现 数据 的 重用 。 这 里 的 一 个 挑战 是 ， 为 了 预防 数据 源 数 据 发 生变 
化 而 导致 数据 不 一 致 ， 必 须 给 缓存 的 数据 分 配 一 个 生存 时 间 (time-to-live) ， 在 该 时 间 后 
这 些 缓存 的 数据 将 过 期 。 不 过 ， 该 方法 需要 用 户 或 管理 员 少量 的 直接 干预 。 有 时 将 其 称 为 
中 间 层 缓存 (mid-tier/middle-tier)。 


管理 员 选 择 的 视图 物化 


数据 库 管 理 员 可 以 判断 哪些 数据 变化 缓慢 ， 并 且 可 以 使 用 ETL 工具 或 者 描述 性 映射 来 
手动 地 指定 如 何 将 其 进行 物化 。 用 户 的 查询 将 被 发 送 到 物化 关系 加 虚拟 关系 的 组 合 上 ， 并 
且 查询 重 写 将 考虑 这 一 点 。 


自动 的 视图 选择 

一 个 更 为 复杂 的 方法 是 ， 给 定 一 个 描述 性 (不 是 ETL) 映射 的 集合 、 一 个 查询 工作 负载 
以 及 有 关 源 数据 相对 静态 的 一 个 说 明 ， 由 数据 集成 系统 自动 选择 其 物化 的 内 容 。 据 此 ， 自 动 
视图 选择 算法 使 用 类 似 商 业 DBMS 优化 向 导 中 的 技术 来 识别 常见 的 查询 表达 式 并 将 其 物化 。 


10.4 本 地 、 外 部 数据 的 直接 分 析 


得 益 于 众多 通过 处 理 日 志 发 现 模式 的 Web 应 用 的 兴起 (广告 点 击 率 、 网 站 访问 模式 、 
页 面 共 视 图 (page co-views) ) ， 以 及 用 于 分 布 式 计算 的 谷歌 MapReduce 编程 模型 的 广泛 应 
用 ， 许 多 商业 平台 处 理 的 数据 不 是 存储 在 数据 库 的 表 中 而 是 简单 地 存储 在 带 有 分 隔 符 的 文 
件 中 。 这 样 的 数据 可 能 来 自 于 各 种 Web 服务 器 的 日 志平 台 以 及 应 用 模块 ， 并 且 它 们 通常 
是 只 追加 的 、 描 述 各 时 刻 行为 的 日 志 。 因 此 一 个 事务 DBMS 存储 系统 的 大 多 数 优点 在 此 荡 
然 无 存 。 从 某 种 意义 上 说 ， 这 些 日 志 已 经 代表 了 一 个 本 地 物化 的 数据 仓库 ， 唯 一 不 同 的 是 
数据 存储 在 DBMS 之 外 的 地 方 。 在 这 种 情况 下 (除非 对 索引 有 很 强 的 需求 )， 它 更 希望 简 
单 地 处 理 直 接 来 自 文件 的 数据 ， 而 不 是 首先 将 数据 导入 然后 再 进行 查询 。 此 外 ， 许 多 查询 
都 是 临时 的 ， 因 此 专门 为 此 建立 一 个 数据 库 系统 来 存储 和 查询 数据 没有 什么 意义 。 

在 这 种 情况 下 ， 集 成 任务 通常 是 执行 聚集 查询 一 一 没有 数据 仓库 (OLAP) 设置 中 的 查 
询 复杂 ， 虽然 有 些 时 候 计算 需要 定制 逻辑 (在 数据 库 中 我 们 将 其 称 为 “用 户 自 定义 函数 ”， 
它 使 用 Java、C 或 Python 语言 编写 ) 。 例 如 ， 一 个 社交 网 络 广告 商 可 能 想 要 通过 广告 类 型 、 
区 域 、 人 口 等 知道 某 个 广告 活动 的 效果 ， 或 者 可 能 想 要 基于 经 常 访问 的 页 面 来 推荐 朋友 。 

为 了 完成 这 种 任务 ， 通 常 使 用 谷歌 MapReduce 编程 模型 (通常 在 开源 的 Apache Ha- 
doop MapReduce 平台 上 实现 ) MapReduce 为 大 规模 数据 集 的 并 行 分 析 提 供 了 一 个 特定 的 
编程 模版 ， 它 类 似 于 一 个 单个 的 SQL 查询 块 。 基 本 的 编程 模型 为 ， 

o 一 个 map 函数 (由 用 户 提供 ) 依次 接受 输入 的 记录 (通常 的 形式 是 文件 中 的 文本 
行 )。 它 的 任务 是 : 1) 解析 数据 记录 ; 2) 从 记录 中 抽取 相关 信息 ; 3) 根据 记录 
过 滤 数 据 ; 4) 为 每 个 记录 输出 一 个 或 多 个 子 结果 。 我 们 可 以 将 其 看 成 SQL 语句 
中 WHERE 子 句 的 功能 ， 其 中 WHERE 子 句 中 的 谓词 由 用 户 定 义 。 然 而 ， 它 也 可 
能 拆 分 记录 ， 生 成 新 的 值 等 。 
map 计算 的 输出 根据 键 值 (key) 进行 分 组 。 这 通过 一 个 shuffle 阶段 完成 。 默 认 情 
况 下 ，shuffle 阶段 根据 键 值 对 数据 进行 排序 。 
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e 对 map 输出 中 具有 相同 键 值 的 每 个 组 ， 调 用 用 户 提供 的 一 个 reduce 函数 。 这 个 函 
数 可 以 输出 零 个 或 多 个 值 。 我 们 可 以 将 其 看 成 是 相当 于 在 键 值 上 进行 GROUP BY 
的 一 个 SQL 语句 ， 紧 接着 在 每 个 组 上 运行 用 户 定义 的 一 个 聚集 函数 。 

令 数据 库 用 户 奇怪 的 是 ， 核 心 MapReduce 框架 并 没有 直接 支持 分 析 查 询 的 组 合 。 然 
而 ， 在 实际 中 我 们 可 能 串联 多 个 MapreReduce 阶段 ， 每 个 阶段 读 取 前 面 的 输出 结果 来 实现 
一 个 查询 组 合 。 对 于 更 为 复杂 的 分 析 (执行 递归 或 迭代 的 计算 ， 如 链接 分 析 )， 常 见 的 做 
法 是 在 一 个 shell 脚本 或 者 Java 程序 中 在 循环 内 部 重复 地 调用 一 个 MapReduce 计算 。 


例 10.7 假设 我 们 正在 运行 一 个 大 型 的 、 多 站 点 的 网 站 ， 我 们 的 目标 是 计算 每 个 
Web 页 面 的 访问 量 。 为 此 ， 需 要 从 众多 Web 服务 日 志 中 抽取 请 求 ， 这 些 日 志 通 常 每 天 在 
每 台 机 器 上 创建 。 然 后 ， 我 们 希望 通过 URL 对 它们 进行 分 组 并 对 其 计数 。 如 果 该 日 志 是 
一 个 关系 表 ， 则 该 请 求 将 表示 成 SQL 语句 中 的 一 个 GROUP BY/COUNT 查询 。 

在 MapReduce 中 ， 编 写 两 个 函数 : map (如 算法 12) ， 以 及 reduce (如 算法 13). IE 
如 我 们 所 看 到 的 ， 这 些 函 数 都 非常 简洁 ， 其 任务 也 非常 简单 。 日 志文 件 中 的 每 一 行 调用 一 
次 map 函数 ; map 函数 的 第 二 个 输入 参数 是 日 志文 件 中 该 行 的 字 节 位 置信 息 。map 函数 输 
出 一 个 (key，value) 对 ， 以 url 作为 主键 (key) ， 数 字 1 作为 值 (value), 


算法 12 ”用户 为 分 组 Web-log URL 提供 的 map 


输入 : stringline; logfile 的 位 置 position; 目标 output。 
输出 : 写 一 个 记录 到 output, 


令 url:= extractUrlFromLine( line ) 





Call output. emit( url, 1) 


算法 13 ”用户 提供 为 每 个 URL 的 Web-log 请 求 计 数 的 reduce HA 
输入 : keyurl; 计数 的 集合 valueSet; 目标 output。 
输出 : 写 一 个 记录 到 output。 
Call output. emit( url valueSet. size() ) 





BLE, MapReduce 框架 执行 它 的 shuffle 阶段 ， 将 所 有 的 map 输出 进行 排序 并 且 根 据 主 
键 (key) 进行 分 组 。 然 后 ， 它 对 每 个 键 值 CURL) 调用 reduce 代码 ， 并 匹配 该 键 值 的 所 
有 值 的 集合 。 这 个 集合 的 基数 正好 就 是 这 个 计数 ， 所 以 我 们 可 以 将 其 输出 。 <<< 


有 人 可 能 会 问 : 为 什么 在 Web 上 MapReduce 如 此 受 欢迎 ?部 分 是 因为 该 框架 使 其 很 容易 
处 理 大 规模 的 外 部 数据 ， 同 时 也 实现 了 定制 过 滤 或 聚集 的 功能 。 与 SQL 不 同 ， 它 可 以 毫 不 费力 
地 、 无 颖 地 将 用 户 自 定义 的 函数 整合 到 C, Java 或 者 Python 代码 中 。 与 SQL 不 同 的 是 ， 许 多 
DBMS 和 数据 仓库 平台 采用 相当 乾 粹 和 晓 涩 的 方法 将 用 户 自 定义 的 函数 与 SQL 集成 起 来 : 通常 
管理 员 必 须 首先 使 用 SQL 数据 定义 语言 注册 该 函数 ， 确 保 正确 地 设置 函数 路 径 等 。 

可 能 更 为 重要 的 是 ，MapReduce 在 一 定 程度 上 提供 了 可 靠 性 和 可 扩展 性 ， 这 是 大 多 数 
DBMS 无 法 匹敌 的 。 一 个 MapReduce 作业 可 以 在 集群 (数据 的 不 同 部 分 同时 在 多 个 map 和 
reduce 操作 中 运行 ) 中 的 数 以 千 计 的 节点 上 并 发 执行 。 当 计算 在 包含 数 以 千 计 的 机 器 上 执 
行 时 ， 机 器 故障 经 常 出 现 。 令 人 难以 置信 的 是 MapReduce 可 以 很 好 地 应 对 这 些 故障 。 如 果 
一 个 节点 宕 机 ，MapReduce 会 自动 将 故障 节点 的 任务 分 配给 其 他 机 器 ， 并 且 将 重 做 故障 期 
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间 该 节点 上 正在 进行 的 所 有 工作 。MapReduce 的 绝对 性 能 有 时 候 受 到 质疑 ,但 如 果 我 们 需 
要 某 些 结果 它 也 可 以 很 好 地 完成 (比如 在 夜间 ) 。 

有 些 开发 人 员 认 为 MapReduce 提供 了 一 个 令 人 泪 丧 的 、 低 级 的 方法 来 编写 复杂 查询 。 
因此 一 系列 可 以 编译 成 MapReduce 的 高 级 、 综 合 的 编程 语言 应 运 而 生 : 具有 既 可 以 获得 
MapReduce 在 集群 上 的 并 行 处 理 能 力 又 不 需要 做 特殊 并 行 化 处 理 的 优点 ， 同 时 也 可 以 获得 
高 级 语言 的 表达 能 力 。 例 如 ，Pig Latin 语言 常常 用 来 做 类 SQL 查询 ， 表 示 为 非 陈述 性 的 一 
组 操作 。 而 且 像 Facebook 这 样 的 公司 已 经 开发 了 SQL 转换 层 (尤其 是 ，Apache Hive) fù 
许 它 们 的 顾客 和 开发 者 使 用 类 SQL 语句 发 出 查询 ， 然 后 在 Hadoop 上 对 扁平 文件 执行 这 些 
查询 。 

显然 ， 基 于 扁平 文件 的 数据 分 析 只 是 信息 集成 的 一 个 小 的 子 类 ， 并 且 基 于 这 种 方法 的 
系统 其 异 质数 据 的 管理 和 集成 能 力 非常 有 限 。 然 而 ， 由 于 它们 的 简单 性 ，MapReduce 及 其 
相关 技术 可 以 高 效 地 将 来 自 多 个 自治 系统 的 数据 捆绑 在 一 起 ， 并 且 具 有 很 高 的 可 扩展 性 。 
在 许多 基于 Web 的 系统 和 服务 的 后 端 ， 它 们 扮演 非常 重要 的 角色 。 

越 来 越 多 的 组 织 已 经 开始 使 用 MapReduce 进行 数据 转换 来 为 数据 仓库 加 载 数据 ， 而 不 
是 用 它 做 原本 的 数据 分 析 : 这 是 一 种 与 ETL 不 同 的 方式 。 


参考 文献 注释 


在 早期 ， 数 据 仓库 就 已 经 成 为 数据 集成 的 传统 方法 ， 其 很 大 程度 上 是 因为 早期 的 应 用 
主要 围绕 联机 分 析 处 理 (OLAP) 、 预 测 和 数据 挖掘 。[122]j 是 Chaudhuri 和 Dayal 发 表 的 一 
个 非常 好 的 综述 。 数 据 仓 库 的 一 个 主要 挑战 是 数据 仓库 的 增 量 维护 ， 斯 坦 福 WHIPS 项 目 
[129, 447, 486, 596 ] 关 注 该 问题 。 

Fagin 等 人 [216] 首 次 提出 数据 交换 的 概念 并 定义 了 其 语义 。 [36]j 是 对 数据 交换 相 
关 文 献 的 一 个 很 好 的 概述 。 数 据 交换 方面 的 工作 最 初出 自 于 Clio System[302] ， 我 们 在 
第 5 章 中 已 经 对 其 进行 了 讨论 。 在 [216 ] 中， 他 们 提出 了 通用 解 的 定义 ， 并且 证 明了 它 
们 相互 之 间 互 同 态 而 且 某 些 答案 可 以 通过 任何 通用 解 获得 。 核 心 通用 解 由 Fagin 等 人 
[217] 提 出 。 这 两 篇 文章 都 提出 了 精确 条 件 ， 在 这 些 条 件 下 可 以 有 效 地 找到 通用 解 和 核 
心 通用 解 ， 尤 其 是 它 如 何 依赖 于 源 和 目标 模式 之 间 映 射 的 形式 以 及 在 目标 模式 上 存在 的 
约束 。 他 们 还 提出 了 一 个 查找 核心 通用 解 的 算法 ， 该 算法 比 我 们 提出 的 贪心 算法 更 为 有 
效 。Afrati 和 Kolaitis 说 明了 如 何在 数据 交换 中 响应 聚集 查询 [ 15 ] ， 这 在 数据 仓库 /OLAP 
场景 中 非常 重要 。 

有 趣 的 是 ， 为 数据 交换 问题 生成 通用 解 的 过 程 类 似 于 在 虚拟 数据 集成 环境 中 在 数据 源 
集合 上 应 用 逆 规 则 算法 〈 人 参见 2.4.5 节 )。 这 两 个 过 程 均 生成 了 目标 模式 (这 里 一 些 元 组 
包含 变量 ) 的 一 个 物化 实例 。 区 别 在 于 ， 在 数据 交换 场景 中 其 目标 是 生成 模式 7 的 物化 实 
例 ， 然 而 在 虚拟 数据 集成 场景 中 其 目标 是 响应 在 中 间 模 式 上 发 出 的 查询 。 因 此 ， 在 这 种 情 
况 下 逆 规 则 是 使 用 数据 源 描述 来 进行 查询 重 写 的 一 部 分 ， 但 其 目标 是 查询 优化 器 将 找到 一 
个 计划 ， 该 计划 不 要 求 物化 了 的 一 个 完整 实例 。 

在 集成 或 中 间 件 层 上 ， 绥 存 问题 得 到 了 广泛 的 研究 ， 通 常 称 为 “中 间 层 缓存 ”[402 ] 。 
通常 的 实现 方法 一 般 是 基于 相对 简单 的 匹配 模版 。 考 虑 将 虚拟 集成 和 物化 数据 集成 综合 到 
一 起 的 第 一 个 系统 是 H20 M H [592]. 
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给 定 一 个 工作 负载 和 一 组 数据 库 统计 信息 ， 物 化 视图 的 选择 问题 在 各 种 场合 中 都 已 经 
得 到 了 广泛 的 研究 。 其 中 ,该 问题 的 最 早 研 究 工 作 是 Gupta[ 276, 277], Chirkova 等 人 研 
究 了 该 问题 的 理论 复杂 性 ， 证 明 该 问题 可 以 在 视图 大 小 的 指数 时 间 内 完成 [134] 一 一 但 是 
当 使 用 标准 估算 启发 式 时 ， 该 问题 的 时 间 复 杂 度 通常 是 多 项 式 量 级 的 。 最 近 ， 视 图 选择 问 
题 已 经 纳入 一 个 多 查询 优化 中 [437]。[ 149 ，398 ] 研 究 了 物化 仓库 视图 的 维护 问题 。[ 14] 
考虑 了 聚集 查询 的 视图 物化 问题 。Active XML[4] 项 目 关注 如 何 将 Web 服务 上 的 任务 分 解 
到 虚拟 和 物化 的 组 件 中 。 

在 写 这 本 书 时 ， 在 数据 库 类 型 的 应 用 中 MapReduce 的 使 用 吸引 了 数据 库 界 很 大 的 兴 
趣 。 很 多 项 目 已 经 探索 了 MapReduce 和 SQL 数据 库 技术 的 结合 ， 包 括 HadoopDB[8]。 在 
[531 ] 中 ，Stonebraker 等 人 也 已 经 提出 将 MapReduce 作为 数据 仓库 的 重要 补充 (例如 ， 作 
为 一 个 ETL 工具 框架 )。 事 实 上 , 目前 已 经 有 了 基于 Mapreduce 的 ETL 框架 (例如 ， 
ETLMR[ 396 | ) 。 
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如 本 书 前 面 章节 所 述 ， 数 据 集成 的 大 多 数 研 究 主要 集中 在 关系 模型 。 在 许多 方面 ， 对 
于 数据 和 查询 表示 来 讲 ， 关 系 模型 和 datalog 查询 语言 都 是 最 简单 的 形式 ， 所 以 首先 考虑 
与 此 有 关 的 很 多 基本 问题 。 

然而 ， 这 些 技术 也 在 不 断 调 整 以 满足 现实 世界 的 需求 ， 其 适应 变化 之 一 是 对 XML 
(或 其 近亲 ISONS) 的 支持 。 例 如 ，IBM 的 Rational Data Architect 或 微软 的 BizTalk 映射 器 
均 采 用 基于 XML 的 映射 。 

这 样 做 的 原因 很 简单 。XML 已 经 成 为 数据 库 和 文档 源 数据 输出 的 默认 格式 ， 并 且 开 
发 了 许多 从 历史 遗留 数据 源 导 出 数据 到 XML 的 工具 (例如 ，COBOL 文件 、IMS 层次 数据 
库 等 ) 。 在 使 用 XML 之 前 ， 数 据 集成 系统 需要 定制 包装 器 ， 从 Web 中 通过 “屏幕 抓 取 ” 
(定制 的 HTML 解析 和 内 容 提取 ) 来 抽取 内 容 ， 并 转换 成 不 同 遗 留 工 具 的 专 有 数据 传输 格 
式 。 如 今 ， 大 部 分 数据 源 均 有 一 个 XML 接口 (URI 作为 请 求 机 制 ，XML 作为 返回 的 数据 
格式 ) ， 因 此 数据 集成 系统 可 以 专注 于 语义 映射 而 不 是 低级 格式 化 的 问题 。 

我 们 注意 到 ，XML 不 仅 给 实际 的 数据 格式 带 来 了 标准 化 ， 而 且 给 由 接口 、 标 准 和 工 
具 组 成 的 整个 生态 系统 带 来 了 标准 化 。 如 图 11-1 所 示 ，XML 已 作为 数据 库 、 文 档 ， 甚 至 


是 Web 服务 数据 的 公共 格式 。 通 常 模式 定义 使 过 程 性 语言 


用 的 是 DTD 和 XML 模式 ，Web 中 的 HTTP th 和信 
议 也 普遍 采用 XML 格式 。DOM 和 SAX 为 XML JavaScript, 


CH, +) 


数据 提供 语言 无 关 的 解析 器 接口 。XML 数据 查 
询 可 以 用 XPath F XQuery 来 实现 (依次 用 SAX 
或 DOM 接口 实施 )。 最 后 ,在 WSDL 和 SOAP 
以 及 REST 接口 的 远程 过 程 调用 中 ，Web 服务 
使 用 XML. XML 模式 和 HTTP 作为 核心 技术 。 
当然 ， 也 有 各 种 文本 编辑 器 、 集 成 开发 环境 和 
内 置 支持 生成 、 显 示 和 验证 XML 的 浏览 器 。 任 
何 自动 产生 和 处 理 XML 的 工具 都 从 这 些 组 件 中 
获 益 。 而 XML 本 身 是 不 能 直接 解决 语义 异 构 性 
或 作为 任何 领域 的 标准 模式 的 ， 但 它 能 使 领域 
专家 更 专注 于 语义 方面 的 问题 ， 而 不 是 低层 次 
的 数据 编码 问题。 
本 书 没有 试图 覆盖 XML 的 所 有 细节 ， 而 是 提 mee a WORF 

供 核心 要 点 。 在 本 章 中 ,我 们 首先 将 重点 放 在 

11.1 节 中 的 XML 数据 模型 和 11.2 节 中 的 模式 形 EU BAR XML 相关 技术 之 周 的 关系 





© JSON, JavaScript 对 象 符号 。 它 非常 类 似 于 以 前 的 半 结 构 化 数据 格式 (如 对 象 交换 模型 ) ， 可 以 被 认为 是 一 
个 “简化 的 XML ” 。 


第 IJ1 章 XML 215 








式 化 。11.3 节 介 绍 查询 XML 的 几 种 方式 ， 重 点 介绍 在 XML 数据 库 系统 中 实现 的 XQuery 标准 。 
11.4 节 讨 论 数据 集成 中 的 XML 查询 处 理 ，11. 5 节 讨 论 通 常用 于 XML 模式 映射 的 XQuery 子 集 。 


11.1 数据 模型 


类 似 于 HTML ( 超 文 本 标记 语言 ) XML (可 扩展 标记 语言 ) 本 质 上 是 从 一 个 称 为 
SGML 《结构 化 通用 标记 语言 ) 的 旧 标准 中 衍生 出 来 的 。 与 其 他 的 标记 标准 一 样 ，XML 使 
用 标签 〈 在 尖 括 号 中 ) 和 属性 〈 与 特殊 标签 关联 的 属性 - 值 对 ) 编码 文档 的 元 信息 。 

XML 与 之 前 的 区 别 之 处 在 于 〈 如 果 有 正确 的 结构 ， 或 者 良好 的 定义 ) ， 它 总 是 可 以 通 
过 XML 解析 器 进行 解析 一 一 无 论 XML 解析 器 是 否 具有 解释 XML 标签 的 信息 。 为 了 确保 
这 一 点 ，XML 有 严格 定义 文档 结构 的 规则 。 我 们 简要 描述 XML 文档 的 基本 组 成 。 





处 理 指令 辅助 解析 器 的 处 理 说 明 


XML 文件 的 第 一 行 向 XML 解析 器 描述 用 于 文档 编码 的 字符 集 信 息 。 这 很 关键 ， 因 为 
它 决定 文件 中 每 个 字符 用 多 少 个 字 节 编码 。 比 如 ， 在 图 11-2 的 示例 中 ，XML 片段 的 顶端 
可 以 看 到 ( 取 自 网 站 DBLP， 网 址 为 dblp. uni- trier. de) ， 字 符 集 用 一 个 处 理 指令 来 定义 ， 
如 <? xml version ="1.0" encoding =" ISO-8859-1"? >。 其 他 的 处 理 指 令 用 于 指定 XML 
文档 内 容 的 约束 ， 我 们 将 稍 后 讨论 。 


‘xml version="].0" encoding= "750:8 
dblp> 
<mastersthe mda ‘i 2002 Ol -03 " key="ms /Brown92 "> 
‘ uth yn nly T paieti ‘author? 
>PRPL: A Database Workload Specification Language</ 





tit es 
<year>1992</year> 
boot ale of Wisconsin-Madison</schooal> 









icle mdate="2002-0]-03" a "tr/dec/SRCI997 -O18"> 
ditor Paul R. McJones< itor> 
e>The 1995 SQL Spee /title> 
nal>Digital a Research Center Report*/journal> 
>>S$RC1997-018</valume> 
ear>1997</year> 
‘>db/]abs/dec/SRC1997-018.htm1<« 
http: //www.mcjones. Meret R/SQL Reunion_95/</ee 











图 11-2 JA DBLP 网 站 获取 的 XML 数据 实例 


标签 、 元 素 和 属性 


XML 文档 的 主要 内 容 包括 标签 、 属 性 和 数据 。XML 标签 用 尖 括 号 表示 ， 必 须 成 对 出 
现 : 每 个 开始 标签 <tag > 必须 有 一 个 匹配 的 结束 标签 </tag > 。 一 个 开始 标签 /结束 标签 
对 和 它 包含 的 内 容 称 为 一 个 XML 元 素 (XML element) 。 一 个 XML 元 素 包含 一 个 或 多 个 属 
性 (attribute) ， 每 个 属性 在 开放 标签 里 有 唯一 的 名 字 和 指定 的 值 : <tag attribl =" valuel" 
attrib2 = "value2" > 。 一 个 元 素 可 能 包含 媒 套 的 元 素 、 髓 套 的 文本 ， 以 及 将 要 介绍 的 各 种 
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其 他 类 型 的 内 容 。 需 要 注意 的 是 ， 所 有 XML 文档 必须 包含 一 个 单一 的 根 元 素 ， 这 意味 
着 元 素 的 内 容 可 以 被 认为 是 一 棵 树 ， 而 不 是 森林 。 


例 11.1 图 11-2 显示 了 来 自 DBLP 的 XML 详细 片段 。 第 一 行 是 一 个 指定 字符 集 编 
码 的 处 理 指令 。 接 下 来 是 单一 的 根 元 素 ，dblp。 我 们 看 到 两 个 子 元 素 在 DBLP 元 素 内 ， 
一 个 描述 mastersthesis， 男 一 个 描述 article。 其 他 元 素 从 略 。 

元 素 mastersthesis 和 article 都 包含 了 两 个 属性 ，mdate 和 key。 另 外 ， 它 们 包含 如 author 
或 者 editor 等 子 元 素 。 注 意 : ee 在 article 中 出 现 了 两 次 。 在 这 个 层次 的 每 一 个 子 元 素 里 都 是 
文本 内 容 ， 其 每 一 个 连续 片段 都 是 通过 一 个 文本 节点 在 XML 数据 模型 中 表示 出 来 。 <<< 





命名 空间 和 限定 名 称 


有 时 一 个 XML 文档 包含 的 内 容 来 自 多 个 数据 源 。 在 这 种 情况 下 ， 多 个 数据 源 中 可 能 
有 相同 的 标签 名 ,我们 希望 可 以 加 以 区 分 。 具 体 可 以 这 样 做 ， 给 每 一 个 源 文档 分 配 一 个 命 
名 空间 (namespace): 这 是 一 个 用 统一 资源 标识 符 (URI) 形式 定义 的 全 局 唯一 名 称 
(URI 是 一 个 以 限定 路 径 的 形式 指定 的 唯一 名 称 ， 不 代表 任何 特定 内 容 的 地 址 。 统 一 资源 
定位 符 ， 即 URL， 是 URI 的 一 个 特例 。 其 数据 项 的 内 容 可 以 通过 URI 的 路 径 被 取 回 ) 。 在 
XML 文档 中 ,我 们 可 以 为 每 个 命名 空间 的 URI 指定 一 个 更 短 的 名 称 ， 即 命名 空间 前 组 
(namespace prefix)。 那 么 ， 在 XML 文档 中 ， 就 可 以 用 跟随 冒号 的 前 级 来 限定 个 人 标签 的 
名 称 ， 比 如 ，<ns: tag > 。 默 认 的 命名 空间 对 全 部 标签 而 言 没 有 限定 名 称 。 

通过 利用 一 个 保留 的 XML 属性 ， 命 名 空间 前 缀 ( 和 默认 命名 空间 ) 被 分 配 到 URL 中 
(xmlns 表示 默认 命名 空间 ，xmlns: name 表示 任何 命名 空间 前 级 )。 命 名 空间 分 配对 属性 
的 父亲 元 素 也 有 效 。 

例 11.2 考虑 下 面 的 XML 片段 : 
ath tag>is in the default namespace (aspace)</th 

tag>is in myns</ s:thistag 
therns:thistag x herns “>is in 
otherns</otherns:thista 


这 里 ， 元 素 root 与 属性 xmlns 定义 的 默认 命名 空间 相关 联 ， 它 也 定义 了 命名 空间 前 绥 
myns。 子 元 素 tag 和 thistag 保留 在 默认 命名 空间 中 。 然 而 ，myns: thistag 是 在 pathY 中 的 新 
命名 空间 里 。 最 后 ，otherns : thistag 引出 了 元 素 本 身 属 于 otherns 的 命名 空间 前 级 。 <<< 


文档 顺序 


XML 服务 于 多 个 不 同 的 角色 : 1) 归纳 和 代替 HTML 的 可 扩展 文档 格式 ; 2) 通用 
标记 语言 ; 3) 结构 化 的 数据 输出 格式 。XML 区 别 于 大 部 分 数据 库 相 关 标 准 的 原因 是 : 
顺序 保护 和 顺序 敏感 。 更 具体 地 说 ，XML 元 素 之 间 的 顺序 是 有 意义 的 ， 是 通过 XML 查 
询 语言 保护 和 查询 的 。 这 使 得 在 一 个 文档 中 段落 之 间 的 顺序 是 可 以 维持 和 检验 的 。 虽 然 
XML 工具 通常 会 保护 原来 的 顺序 ,但 是 XML 属性 (作为 元 素 的 属性 ) 并 非 是 顺序 敏 
感 的 。 
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在 逻辑 层 ， 我 们 常常 用 树 来 表示 一 个 XML 文档 ， 每 一 个 XML 节点 用 树 的 一 个 节点 来 
表示 ， 父 子 关系 通过 边 来 编码 。 以 上 所 提 到 的 共有 如 下 7 种 类 型 ; 

o 文档 根 该 节点 代表 整个 XML 文档 ， 作 为 它 的 孩子 ， 一 般 最 少 有 一 条 处 理 指 令 来 
表示 XML 编码 信息 和 一 个 单一 的 根 节点 。 我 们 可 以 看 到 ， 文 档 根 代表 整个 文档 ， 
而 根 元 素 只 包含 元 素 的 结构 。 

处 理 指 令 ” 这些 刷 点 在 字符 编码 、 解 析 结构 等 方面 指导 解析 器 。 
注释 和 HMTL 注释 一 样 ， 是 人 们 可 读 的 注解 。 
。 TR 绝 大 多 数 的 数据 结构 编码 成 为 XML 元 素 ， 包 括 开 始 和 结束 标签 以 及 所 包含 
的 内 容 。 一 个 无 内 容 的 元 素 可 以 表示 成 一 个 形式 为 <tag/ > 的 单一 空 标签 ， 相 当 于 
一 个 开始 标签 /结束 标签 序列 。 
。 属性 ”属性 是 与 一 个 元 素 相关 联 的 名 字 - 值 对 《〈 嵌 套 在 一 个 开放 的 标签 中 ) 。 属 性 
不 是 顺序 敏感 的 ， 并 且 不 允许 同一 个 标签 内 有 相同 的 属性 名 。 
© 文本 一 个 文本 节点 表示 在 一 个 元 素 内 的 连续 数据 内 容 。 
。 命名 空间 一 个 命名 空间 节点 在 特定 的 URI 里 限定 了 元 素 的 名 称 ， 这 创建 了 限定 
名 称 (qualified name) 。 

文档 中 的 每 一 个 节点 均 有 一 个 唯一 标识 、 一 个 相对 的 顺序 (如 果 模 式 与 文档 相关 ) 和 一 

个 数据 类 型 。 深 度 优 先 、 从 左 到 右 遍 历 树 的 表示 对 应 了 在 相关 的 XML 文档 内 的 节点 顺序 。 


例 11.3 图 11-3 展示 了 代表 图 11-2 文档 的 XML 数据 模型 。 这 里 ， 我 们 可 以 看 到 7 
种 节点 类 型 中 的 5 种 (注释 和 命名 空间 在 这 个 文档 中 没有 出 现 ) 。 


FR SS 
mastersthesis < 

















图 11-3 图 11-2 的 XML 片段 所 表示 的 数据 模型 的 例子 
注 : 不 同 的 节点 类 型 用 不 同 的 形状 表示 


<<< 
11.2 XML 结构 和 模式 定义 


一 般 情 况 下 ，XML 可 以 认为 是 一 种 半 结 构 化 的 层次 数据 格式 ， 叶 子 是 字符 串 (文本 ) 
节点 和 属性 节点 的 值 。 要 使 XML 发 挥 最 大 作用 ， 我 们 必须 添加 一 个 模式 来 描述 属性 和 元 
素 的 语义 及 类 型 一 这 使 得 我 们 能 够 编码 非 字符 串 的 数据 类 型 以 及 文档 内 部 和 文档 之 间 的 
链接 〈 例 如 ， 外 键 、URL) 。 
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11. 2. 1 文档 类 型 定义 


了 解 了 XML 标准 后 ， 焦 点 问题 就 是 文档 标记 。 因 此 ， 原 始 的 “模式 ”定义 更 多 地 关 
注 标记 结 构 的 合法 性 ， 而 不 是 具体 的 数据 类 型 和 数据 语义 。 文 档 类 型 定义 (Document 
Type Definition, DTD) 用 处 理 指令 来 表示 ， 为 XML 解析 器 提供 关于 给 定 元 素 的 结构 。 

在 DTD 中 ， 针 对 每 一 个 元 素 ,我 们 都 为 其 指定 哪些 元 素 和 文本 节点 是 允许 的 ， 同 时 
也 可 以 用 EBNF 符号 表示 交替 或 嵌 套 。 子 元 素 用 其 名 字 来 表示 ， 而 文本 节点 用 #PCDATA 
(“ 解 析 的 字符 ”数据 ) 指定 。 


例 11.4 图 11-4 展示 了 本 节 示 例 的 一 个 DTD 片段 。 在 这 部 分 例子 里 ， 我 们 关注 元 素 
的 定义 (ELEMENT 处 理 指令 ) 。DBLP 元 素 有 一 系列 任意 顺序 交错 的 mastersthesis 和 article 
的 子 元 素 。mastersthesis 依次 有 强制 的 author, title, year 和 school 子 元 素 ， 并 伴随 着 零 个 
或 多 个 committeemembers ， 这 些 子 元 素 都 包含 文本 内 容 。 


{ELEMENT db 


LELEMENT maste 





HATTLIST mastersthesis(mdat CDATA #REQUIRED 
| ID #REQUIRED 
r CDATA #IMPLIED 
IELEMENT autho 
VELEMENT title 
LELEMENT year 
LELEMENT scho 


<LELEMENT committeemen 


图 11-4 图 11-2 的 XML 所 表示 的 一 个 DTD 例子 的 片段 。 注 意 ， 这 里 的 每 一 个 定义 均 用 处 理 指令 来 表示 
<<< 


在 一 系列 内 部 包含 ATTLIST 处 理 指令 的 行 中 指定 了 属性 : 每 一 个 属性 规范 包括 名 字 、 
特殊 类 型 和 表示 属性 是 可 选 的 (#IMPLIED) 或 者 必需 的 (#REQUIRED) 注释 。 类 型 为 : 
称 为 CDATA (“字符 数据 ") 的 文本 内 容 ， 它 比 元 素 里 允许 的 PCDATA 有 更 多 的 限制 ; 
ID， 它 表明 拥有 文档 中 全 局 唯一 标识 符 (identifier) 的 属性 。IDREF 或 者 IDREFS 分 别 表 
明文 档 中 ID 类 型 的 属性 包含 一 个 引用 或 者 用 空格 隔离 的 多 个 引用 。ID 和 IDREF 可 看 做 是 
键 和 外 键 , 或 者 锚 和 链接 的 特例 。 


例 11.5 图 11-4 定义 了 与 mastersthesis 相关 的 3 个 属性 。mdate 是 强制 的 文本 类 型 。 
key 也 是 强制 的 ， 但 它 是 唯一 标识 符 。 最 后 ，advisor 字符 串 是 可 选 的 。 <<< 


奇怪 的 是 ，DTD 没有 指定 文档 中 的 根 元 素 ， 而 是 在 参照 DTD 的 源 XML (source XML) 
的 处 理 指令 中 指定 。DTD 可 以 用 如 下 类 似 的 语法 直接 嵌 套 在 文档 里 。 
CE a EERE AAPEEE 
!ELEMENT dbip((mastersthesis | art 
Ve EMENI nastersthesis(author,titile,year.school 


pb 
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但 更 为 常见 的 情况 是 ，DTD 在 一 个 单独 的 文件 中 ， 并 且 用 SYSTEM 关键 字 来 引用 。 


IBOCTYPE dbip SYSTEM “dbir 


在 两 种 情况 下 ，DOCTYPE 后 的 第 一 个 变量 是 根 元 素 的 名 字 ，XML 解析 器 会 在 根 元 素 
之 前 解析 DTD. 


DTD 的 优 缺 点 


作为 第 一 个 XML 模式 格式 ，DTD 在 实践 中 得 到 了 普遍 应 用 。 它 理解 起 来 相对 简单 和 
简洁 。 实 际 上 ， 现 存 的 每 一 个 XML 解析 器 都 支持 它 ， 并 且 绝 大 多 数 的 文档 结构 说 明 都 是 
充足 的 。 遗 憾 的 是 ， 它 对 数据 交换 有 很 多 限制 。 其 中 一 个 限制 是 ， 它 不 能 直接 映射 数据 库 
中 键 和 外 键 的 概念 到 ID 和 IDREFS ( 它 不 支持 复合 键 ， 并 且 ， 即 使 用 其 他 名 字 排 除 ID 类 
型 的 属性 ， 键 值 在 一 个 文档 中 也 必须 是 全 局 唯一 的 ) 。 空 值 的 概念 不 能 映射 到 基于 DTD 的 
XML 的 任何 方面 ， 这 意味 着 关系 数据 库 的 输出 十 分 难处 理 。 不 能 指定 某 些 主要 数据 类 型 ， 
例如 整 型 和 日 期 型 。 

所 有 这 些 限 制 ， 以 及 各 种 其 他 的 需求 导致 在 2000 年 提出 了 一 个 新 规范 ， 即 XML 
模式 。 


11.2.2 XML 模式 


XML 模式 (XML Schema， 通 常 缩写 为 标准 的 三 字母 扩展 名 XSD) 是 一 个 非常 全 面 的 
标准 ， 它 提供 了 一 个 DT 的 超 集 ， 用 来 克服 前 一 节 提 到 的 局 限 性 ， 并 且 自 身 即 是 一 个 
XML 编码 的 标准 。 

因为 XML 模式 本 身 是 在 XML 里 指定 的 ， 所 以 至 少 涉及 两 个 命名 空间 : 一 个 是 XML 模 
式 本 身 的 命名 空间 〈 用 于 内 置 的 XSD 定义 和 数据 类 型 ) ， 另 一 个 是 模式 定义 的 命名 空间 。 为 
了 在 模式 中 定义 标签 ， 我们 往往 用 默认 的 命名 空间 ， 并 且 用 一 个 和 URI www. w3. org/2001/ 
XML Schema 关联 的 前 级 (往往 是 xs: 或 者 xsd:) 来 参照 XML 模式 标签 。 

除了 使 用 XML 标签 外 ，XML 模式 与 DTD 有 两 点 不 同 之 处 。 第 一 ， 元素 类 型 的 概念 已 
从 元 素 名 称 中 分 离 出 来 。 我 们 先 定义 一 个 元 素 类 型 (要 么 是 一 个 代表 结构 化 元 素 的 复杂 类 
型 (complexType) ， 要 么 是 一 个 代表 标量 或 文本 节点 的 简单 类 型 (simpleType) ) ， 然 后 用 
一 个 或 多 个 元 素 名 称 与 其 关联 。 第 二 ， 完 全 消除 EBNF 符号 的 应 用 ,而 是 用 序列 
(sequence) 或 者 选择 (choice) 元 素 把 内 容 序列 分 组 ， 并 且 用 minOccurs 和 maxOccurs 属性 
指定 重复 数 。 


例 11.6 图 11-5 展示 了 我 们 所 举例 子 中 的 XML 模式 片段 。 我 们 首先 看 到 在 XML 模 
式 的 命名 空间 内 (缩写 为 xsd) ， 模 式 的 定义 有 一 个 根 标签 schema, 

该 片段 说 明了 一 篇 学 位 论文 的 复杂 元 素 类 型 定义 。 与 该 元 素 类 型 相关 联 的 是 3 个 属性 
(mdate key 和 可 选 的 advisor) 。 我 们 发 现 ， 每 个 属性 都 有 一 个 特定 的 类 型 (一 种 内 置 
XML 模式 的 简单 类 型 ) : 分 别 是 日 期 型 、 字 符 串 型 和 字符 串 型 。 在 ThesisType 内 部 是 一 系 
列子 元 素 : 字符 串 型 author、 字 符 串 型 title、 整 型 year、 字 符 串 型 school 和 一 系列 零 个 或 多 
个 称 为 CommitteeType 复杂 类 型 的 committeemember。ThesisType 可 用 于 多 个 元 素 ， 最 后 ， 
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用 位 于 图 底部 的 mastersthesis 与 其 关联 。 


dec 5 ming «=xen= "ht 
hema xmins:xsd="hUt, 





ool" type="xsd:string"/> 
ie="committeemember"” type="Committeelype” 


0" maxOccurs="unbounded"/ 


图 11-5 对 应 于 图 11-2 XML 的 XML 模式 片段 的 例子 。 摘 录 主 要 集中 在 mastersthesis 结构 的 定义 
<<< 


介绍 完 XPath 以 后 ， 我 们 将 在 本 节 的 后 续 内 容 里 讨论 有 关 XML 模式 允许 定义 键 和 外 
键 的 内 容 。 还 有 许多 我 们 没有 讨论 的 特点 : 可 以 定义 一 些 限 制 内 置 类 型 的 简单 类 型 ( 比 
如 : 正 整 数 型 、 从 2010 到 2020 的 日 期 型 、 以 “S” 开 头 的 字符 串 型 ) 、 可 以 利用 继承 来 定 
义 类 型 、 可 以 创建 可 复 用 结构 。 更 多 的 细节 ， 可 以 参考 相关 网 络 资源 。 

XML 模式 和 与 之 关联 的 数据 模型 是 XML“ 现代 的 ”模式 格式 ， 应 用 于 许多 与 XML 相 
关 的 网 络 标准 。 例 如 ，SOAP， 用 于 通过 系统 传递 变量 的 简单 对 象 访问 协议 ; WSDL， 网 络 
服务 描述 语言 ; RDF 模式 的 数据 类 型 原 语 ， 用 于 语义 网 络 的 资源 描述 框架 的 模式 语言 ( 参 
见 12.3 49); 以 及 XQuery， 本 章 稍 后 介绍 的 XML 查询 语言 。 


11.3 查询 语言 


由 于 XML 以 标准 的 方式 表示 文档 和 数据 ， 所 以 它 很 快 就 成 为 应 用 和 开发 者 提取 和 操 
纵 XML 内 容 的 标准 化 机 制 。 

在 过 去 的 几 年 中 ， 出 现 了 很 多 新 的 模型 ， 这 些 模型 可 以 把 XML 解析 成 对 象 (DOM ) 
和 消息 (SAX), UK XPath 原 语 和 最 终 的 XQuery 语言 。 我 们 将 在 11.3.1 节 讨 论 解析 标 
准 ， 在 11.3.2 节 讨论 XPath， 在 11.3.3 节 讨 论 XQuery。 此 外 ， 用 于 很 多 文档 和 格式 化 场 
景 中 的 XML 变换 语言 XSLT (XML 样式 表 语 言 的 转换 ) ， 由 于 不 适合 数据 操作 ， 所 以 我 们 
在 本 书 中 不 做 讨论 。 
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11.3.1 先驱 : DOM 和 SAX 


在 提出 XML 查询 原 语 之 前 ，XML 领域 建立 了 一 系列 用 于 解析 XML 的 与 语言 无 关 的 应 
用 程序 接口 (API) : 目标 是 任何 解析 器 都 能 够 采用 一 致 的 方式 实现 这 些 应 用 程序 接口 ， 
使 得 代码 可 以 比较 容易 地 移植 到 不 同 的 平台 和 函数 库 中 。 

第 一 个 标准 是 文档 对 象 模 型 (Document Object Model, DOM), DOM 为 解析 后 的 HTML 
和 XML 指定 了 一 个 面向 对 象 的 层次 结构 。DOM 实际 上 来 自 HTML 网 络 浏览 器 支持 的 内 部 对 
象 模型 ， 但 也 可 以 被 泛 化 到 XML。DOM 建立 了 通用 接口 ， 即 DOM 节点 ， 包 含 了 所 有 XML 
节点 类 型 。 例 如 ， 包 括 文档 节点 、 元 素 节 点 和 文本 节点 。DOM 解析 器 通常 建立 一 棵 内 存 
对 象 树 ， 该 树 表示 了 一 个 被 解析 的 文档 ， 并 将 文档 的 根 节点 返回 给 调用 程序 。 这 里 ， 应 用 
程序 可 以 遍历 整个 文档 模型 。 每 个 DOM 节点 有 遍历 父亲 和 和 孩子 节点 的 方法 (如果 合 适 ) ， 
测试 节点 类 型 的 方法 、 读 取 节 点 文本 值 的 方法 等 。 存 在 无 须 通过 文档 的 层次 结构 ， 直 接 通 
过 名 称 检索 节点 的 接口 。DOM 的 后 续 版 本 也 支持 更 新 到 内 存 文档 模型 。 

DOM 是 一 种 重量 级 的 XML 表示 ; XML 文档 里 的 每 个 节点 被 实例 化 为 一 个 对 象 ， 该 对 
象 往往 比 原始 的 源 文件 消耗 更 多 的 空间 。 此 外 ，DOM 的 早期 版 本 没有 任何 的 增 量 方式 : 
直到 解析 了 整个 文档 才 进 行 处 理 。 为 了 满足 只 操纵 部 分 XML 文档 的 应 用 需求 ， 或 增 量 处 
理 数据 ， 人 们 提出 了 SAX, XML 的 简单 API, SAX 不 是 对 象 描述 ， 而 是 标准 的 解析 器 
API。 作 为 通过 读 取 输入 文件 的 XML 解析 器 ， 它 回调 用 户 支 持 的 方法 。 当 一 个 新 元 素 开 
始 、 一 个 元 素 关 闭 ， 或 者 文本 节点 冲突 时 ， 通 知 这 些 方法 。 应 用 程序 可 以 获得 回调 函数 提 
供 的 信息 ， 并 执行 其 认为 合适 的 过 程 。 该 应 用 程序 可 能 为 每 个 回调 函数 实例 化 对 象 ， 或 者 
可 能 只 是 简单 地 更 新 进度 信息 ， 也 或 者 完全 丢弃 回调 函数 信息 。 

在 面向 对 象 语言 环境 下 ， 开 发 者 为 操作 XML 设计 了 SAX 和 DOM。 它们 都 不 是 用 于 提 
取 内 容 的 描述 方式 。 不 过 ， 有 关 的 描述 标准 另 有 提出 ， 下 面 我 们 会 讨论 。 


11.3.2 XPath: XML 查询 原 语 


XPath 最 初 被 开发 成 一 种 简单 的 XML 查询 语言 ， 它 的 作用 是 从 单个 XML 文档 中 提取 子 
树 。 随 着 时 间 的 推移 ， 它 常常 被 用 在 其 他 XML 标准 的 构造 块 中 。 比 如 ，XPath 用 来 指定 XML 
模式 的 键 和 外 键 ， 并 用 来 指定 XQuery 中 分 配 变 量 的 XML 节点 的 集合 (描述 如 下 )。 

XPath 在 实际 应 用 中 有 两 个 版 本 ， 最 初 的 XPath 1. 0 和 后 来 的 XPath 2. 0。 最 初版 本 受 
限于 未 直接 指定 源 XML 文档 的 表达 式 上 (比如 ， 需 要 用 工具 才能 提供 特殊 XML 文件 的 
XPath) 。 为 使 XPath 成 为 XQuery 一 个 完全 集成 的 子 集 ， 在 XQuery 开发 期 间 创建 了 XPath 
2.0 版 本 。 增 加 了 若干 功能 ， 最 著名 的 是 有 能 力 为 匹配 XQuery 的 表达 式 、 数 据 模型 和 类 型 
系统 指定 源 文档 。 


路 径 表 达 式 


XPath 的 主要 结构 是 路 径 表 达 式 ， 它 代表 上 下 文 节 点 的 一 系列 步骤 。 上 下 文 节点 是 提 
供 XPath 源 文档 的 默认 根 节点 。 评 估 路 径 表 达 式 的 结果 是 节点 序列 (以 及 它们 的 子 树 后 
代 ) ， 该 序列 消除 重复 ， 并 按照 节点 在 源 文档 中 出 现 的 顺序 返回 。 由 于 历史 原因 ， 该 序列 
常 称 为 “节点 集 ”。 
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上 下 文 节点 


用 一 个 类 UNIX 路 径 语法 指定 Xpath。 与 UNIX 一 样 ， 当 前 的 上 下 文 节点 用 “. ”指定 。 
如 果 在 最 前 端 用 “/ ”开始 XPath， 则 这 个 节点 开始 于 文档 的 根 。 在 XPath 2.0 中， 我 们 可 
以 指定 一 个 特殊 的 源 文 档 作 为 上 下 文 节点 来 使 用 : 函数 doc( "URL" ) 在 URL 中 解析 XML 
文档 ， 并 作为 上 下 文 节点 返回 它 的 文档 根 。 
从 上 下 文 节点 看 ，XPath 往往 包括 一 些 列 的 步骤 和 可 选 的 谓词 。 如 果 我 们 沿用 将 XML 
文档 比 做 树 的 通常 解释 ， 那 么 将 XPath 步骤 编码 成 为 一 个 描述 如 何 从 上 下 文 节点 遍历 的 步 
REM (step type) 和 一 个 指定 返回 节点 的 节点 限制 (node restriction), PRN E 
一 个 类 似 于 “/ ”或 “V” 的 分 隔 符 ， 节 点 限制 往往 是 一 个 元 素 匹 配 的 标签 。 接 下 来 会 更 
加 准确 地 说 明 它 们 。 
默认 情况 下 ， 是 从 节点 到 后 代 的 向 下 人 遍历。 可 以 从 上 下 文 节点 开始 ， 遍 历 单一 层 
(single level) 到 孩子 节点 〈 用 分 隔 符 “/ ”指定 ) ; 或 者 通过 零 个 或 多 个 后 代 子 元 素 (用 
“1” FRE) 。 我 们 可 以 以 多 种 方式 限制 匹配 节点 : 
o 步骤 “…/label” 或 “…/label” 带 指定 的 标签 ， 分别 只 返回 孩子 或 后 代 元 素 ( 任 
何 中 介 元 素 都 不 受 限制 ) 。 

e 带 “*” 的 步骤 匹配 任何 标签 , “…/* ”或 “…A*”， 分 别 返回 全 部 孩子 元 素 
的 集合 或 后 代 元 素 的 集合 。 

© 步 又“…/@label” 返 回 属 性 节点 〈 包 括 标签 和 值 ) ， 这 些 节点 是 与 指定 标签 匹配 
的 当前 元 素 的 孩子 。 如 果 有 指定 的 标签 ， 步 又 “…V%@label” 则 返回 当前 或 者 任 
何 后 代 元 素 的 属性 节点 。 

© 步骤 “…/@ * ”或 “…V@ * ”分 别 返 回 与 当前 元 素 相 关 ， 或 与 当前 和 任何 后 代 
元 素 相关 的 全 部 属性 节点 。 

© 步骤 “/.. ”表示 向 上 到 达 树 的 父亲 的 步骤 ， 且 父亲 的 每 个 节点 都 与 XPath 的 前 一 

步骤 匹配 。 

© 带 节 点 测试 (node-test) 的 步骤 限制 节点 的 类 型 为 特定 类 。 比 如 ，…/text() 返回 

文本 节点 的 孩子 节点 ; …/comment() 返回 注解 类 型 的 孩子 节点 ; …/ processing- 
instruction() 返 回 处 理 指 令 类 型 的 孩子 节点 ; …/node() 返 回 节点 的 任何 类 型 (不 只 
是 元 素 、 属 性 等 ) 。 


例 11.7 按照 图 11-2 提供 的 数据 ，XPath. /dblp/article 作为 上 下 文 节点 从 文档 的 根 开 

始 ， 向 下 遍历 直到 dblp 的 根 元 素 和 所 有 article 的 子 元 素 ， 并 返回 一 个 包含 元 素 article 的 

XML 节点 序列 (TGR article 仍 保持 到 其 子 树 的 全 部 链接 )。 因 此 ， 如 果 要 把 节点 序列 反 向 
PINEA XML， 则 结 BRM EB. 


icle mdat J y 
cedi Paul R. emm ‘adit 

tle The 1995 SQL Reunion tl 

‘Digital erie Research Center Report«: j 
;SRC1997- Ole me 

<year>1997</year 
<eeodb/labs/dec/SRC1997-018.html</ee 
eerhttp://www.mcjones.org/System_R/SQL_Reunion_95/</ee 
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ER, WRAL article, XPath 的 结果 就 是 一 个 XML 树 的 森林 ， 而 不 是 一 棵 树 。 由 
F XPath 没有 一 个 唯一 的 根 元 素 ， 所 以 它 的 输出 常常 不 是 一 个 合法 的 XML 文档 。 


例 11.8 根据 例子 中 的 数据 ，XPath /year 将 从 文档 根 开始 (由 于 最 前 端的 “/” ) ， 


向 下 遍历 所 有 的 子 元素 ， 并 返回 
<year》>1992</yeal 
1997</ 


这 里 ， 第 一 个 year 来 自 于 mastersthesis ， 第 二 个 来 自 于 article, <<< 


例 11.9 根据 例子 中 的 数据 ，XPath /dblpy * /editor 将 从 文档 根 开 始 ， 向 下 遍历 匹配 
第 一 个 mastersthesis ， 并 寻找 editor。 因 为 没有 发 现 这 样 的 匹配 ， 所 以 下 一 次 的 遍历 将 发 生 
在 article。 从 article 开始 ， 发 现 了 editor， 结 果 如 下 所 示 。 


r>Paul R. McJones 


当然 ， 如 果 匹 配 文档 中 省 略 的 内 容 ， 则 会 返回 进一步 的 结果 。 <<< 


更 复杂 的 步骤 : 坐标 轴 


虽然 “/” 和 “AH” 是 目前 为 止 最 常用 的 步骤 说 明 , 但 对 于 更 一 般 的 称 为 坐标 轴 
(axes) 的 XML 遍历 模型 来 讲 ， 它 们 实际 上 被 认为 是 特殊 的 缩写 语法 。 坐 标 轴 人 允许 XPath 指 
定 一 个 遍历 ， 该 遍历 不 仅 可 以 到 达 后 代 节 点 ， 还 可 以 到 达 祖 先 节点 、 前 继 节 点 、 后 续 节 点 
等 。 坐 标 轴 的 语法 稍 显 笨重 : 不 是 使 用 “/ ”或 者 “V” 后 跟 节点 限制 ， 而 是 使 用 “7/” 
后 跟 坐 标 轴 说 明 符 (axis specifier) ， 接 着 后 跟 “::”， 然 后 才 是 节点 限制 。 坐 标 轴 包 括 : 

。 child; 遍历 到 一 个 孩子 节点 ， 等 同 于 普通 的 “/”。 
descendant; 找到 当前 节点 的 一 个 后 代 ， 等 同 于 普通 “/”。 
descendant-or-self; 返回 当前 节点 或 任何 一 个 后 代 。 
parent: 返回 当前 节点 的 父亲 节点 ， 等 同 于 “..”。 
ancestor: 找到 当前 节点 的 任何 一 个 祖先 。 
ancestor-or-self: 返回 当前 节点 或 者 一 个 祖先 。 
preceding-sibling: 返回 在 文档 序列 中 出 现 较 早 的 任何 一 个 兄弟 节点 。 
following-sibling: 返回 在 文档 序列 中 出 现 较 晚 的 任何 一 个 兄弟 节点 。 
preceding: 返回 在 文档 中 出 现 较 早 的 任何 层 的 任何 节点 。 
following: 返回 在 文档 中 出 现 较 晚 的 任何 层 的 任何 节点 。 
attribute; 匹配 属性 ， 如 “@ ”的 前 缀 。 
namespace: 匹配 命名 空间 节点 。 


例 11.10 例 11.7 的 XPath 应 写成 


./child::dblp/child::article 


例 11. 8 应 写成 


/descendant: :year 


在 文档 中 返回 每 一 个 XML 节点 的 XMPah 是 


/descendant-or-self::node() <<< 
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谓词 
我 们 往往 想 进 一 步 限 制 返回 的 节点 集 ， 比 如 ， 通 过 指定 我 们 寻找 的 特定 数据 值 。 为 此 
引入 XPath 谓词 。 谓 词 是 可 以 附 在 XPath 特定 步骤 上 的 布尔 测试 。 布 尔 测试 适用 于 每 一 个 
通过 XPath 返回 的 结果 。 布 尔 测试 和 路 径 的 存在 一 样 简单 〈 使 我 们 可 以 表达 特定 树 模式 测 
试 的 查询 ， 而 不 是 简单 的 路 径 ) ， 也 可 以 测试 文本 或 属性 节点 的 特定 值 。 
谓词 出 现在 方 括号 [和 ] 里 。 括 号 内 的 表达 式 有 上 下 文 节 点 集合 到 与 XPath 先前 步 又 
匹配 的 节点 。 


例 11. 11 如 果 我 们 用 XPath 表达 式 /dblp/ * [. /year/text() ="1992" ] 和 图 11-2 进 
行 评 估 ， 则 第 一 个 mastersthesis 是 匹配 的 (上 下 文 节点 变 成 mastersthesis) ， 然 后 评估 谓词 
表达 式 。 因 为 它 返 回 真 ， 所 以 节点 mastersthesis 被 返回 。 当 节点 article 是 匹配 的 (为 谓词 
变 成 上 下 文 节点 ) 时 ， 谓 词 再 次 被 评估 ， 但 这 次 不 满足 条 件 。 <<< 


关于 位 置 的 谓词 


根据 节点 的 索引 位 置 ， 谓 词 也 可 用 于 选择 节点 集中 的 特定 值 。 如 果 用 一 个 整 型 值 i 表示 
位 置 ， 比 如 ，p[5] 表示 选择 节点 序列 的 第 i 个 节点 。 也 可 以 用 position() 函数 显 式 请 求 节点 
的 索引 ， 最 后 节点 的 索引 用 last() 函数 请 求 ( 对 应 的 first() 函数 也 是 存在 的 ) 。 


例 11. 12 在 图 11-2 的 XML 文档 中 ， 选 择 最 后 的 article， 可 以 使 用 如 下 的 XPath: 


//article[position( )=last()] <<< 


节点 函数 


有 时 ， 我 们 希望 对 某 个 特定 节点 的 名 称 或 其 命名 空间 进行 测试 或 限制 。 函 数 name 以 一 
个 非 文本 节点 作为 输入 参数 ， 并 返回 该 节点 的 全 部 合格 名 称 。local- name 仅 返 回 不 带 命名 空 
间 前 级 的 名 称 ; namespace-uri 返回 与 命名 空间 相关 联 的 URI (所 有 这 些 函 数 都 以 节点 集合 作 
为 输入 ， 仅 以 集合 中 一 个 元 素 作为 返回 结果 ) 。 


重 提 XML 模式 : key 和 keyref 


我 们 已 经 了 解 了 XPath 的 基本 原理 ， 接 下 来 再 来 回顾 一 下 XML 模式 里 键 和 外 键 的 概念 。 
图 11-6 是 图 11-5 的 扩展 版 本 ， 在 图 11-6 里 增加 了 许多 键 和 外 键 。 

我 们 首先 从 第 31 行 〈《 和 第 25 行 ) 键 的 概念 开始 介绍 。 首 先 要 说 明 的 是 每 一 个 键 都 有 自 
己 的 名 字 : 该 名 字 并 没有 在 XML 文档 结构 中 表现 出 来 ， 而 是 用 于 外 键 参 照 。 许 多 不 熟悉 
XML 模式 的 读者 也 会 发 现 ，keyref 的 定义 没有 考虑 complexType (mastersthesis 或 者 school ) , 
而 是 超出 了 引入 complexType 元 素 的 地 方 。 大 家 知道 ，key (HE) 是 一 个 函数 依赖 的 特例 ， 即 
键 中 的 属性 或 属性 集 决 定 了 集合 里 的 全 部 元 素 。 在 关系 世界 里 ， 元 素 是 一 个 元 组 ， 集 合 是 一 
个 表 。 因 此 ， 必 须 指定 由 键 决 定 的 元 素 : 这 就 是 xsd: selector 的 用 处 。 匹 配 选 择 器 的 全 部 元 
素 的 集合 就 是 定义 键 的 集合 。 在 被 选择 的 元 素 里 ， 必 须 确认 组 成 键 的 属性 : 这 就 是 xsd: 
field, 

— BSB T key (HE) 的 定义 ， 第 20 行 的 外 键 或 者 keyref 也 一 目 了 然 。keyref AZF, 
但 不 如 属性 refer 重要 ， 因 为 属性 refer 命名 的 键 是 通过 外 键 来 指明 的 。 
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图 11-6 含有 key 和 keyref 的 XML 模式 摘录 


11.3.3 XQuery: XML 查询 能 力 


XPath 语言 无 法 获取 一 个 典型 的 数据 库 查询 或 模式 映射 中 的 数据 转换 。 例 如 ，XPath 不 
支持 交叉 文档 连接 、 不 支持 表格 的 改变 和 重 构 。 为 了 满足 这 些 要 求 ， 人 们 提出 了 XQuery 语 
言 。 直 觉 上 ，XQuery 是 “XML 的 SQL”: 通过 XML 数据 库 和 文档 转换 引擎 实现 的 标准 语言 。 

XQuery 由 一 个 核心 语言 和 一 系列 扩展 组 成 : 核心 语言 提供 精确 结果 语义 并 支持 查询 
和 转换 ; 也 包括 近似 结果 (XQueryFull Text) 的 全 文 查询 扩展 和 XQuery 更 新 (XQuery 
Update Facility) 的 扩展 。 本 书 重 点 关注 “核心 ”XQuery。 


AX Query Ff: FLWOR ”表达 式 

SQL 以 描述 查询 块 表达 式 的 基本 模式 “SELECT…FROM…WHERE” 被 大 家 熟知 CË 
有 可 选项 “ORDER BY” 和 “GROUP BY…HAVING”)。 类 似 地 ，XQuery 也 有 查询 块 的 基 
本 形式 ， 称 为 FLWOR (以 “flower” 发 音 ) 的 表达 式 。FLWOR 是 “for:…let*…where…order 
by…returmn” 的 首 字 母 缩写 (注意: 相对 于 不 区 分 大 小 写 的 SQL, XQuery 的 关键 字 必 须 是 
小 写 的 )。 在 实际 应 用 中 ， 可 以 按照 多 种 顺序 组 织 不 同 的 XQuery 子 句 ， 并 且 多 个 子 句 是 可 
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选 的 ， 但 是 ，FLWOR 顺序 是 非常 流行 的 一 种 。 

直观 地 讲 ，XQuery 的 for 和 let 子 句 连 在 一 起 对 应 于 SQL 的 FROM FAJ; XQuery 的 
where 子 句 对 应 于 SQL 的 同名 子 句 ; return 子 句 对 应 于 SQL 的 SELECT FA Am, FA 
的 语义 却 有 许多 区 别 。 由 表 和 元 组 组 成 的 关系 模型 是 用 完全 不 同 的 操作 符 定 义 。 在 XML 
中 ， 用 带 有 一 系列 子 树 的 节点 表示 文档 或 任 一 子 树 。 因 此 ，XQuery 区 别 于 节点 、 标 量 类 
型 和 集合 ， 并 以 相对 简洁 的 方式 定义 操作 符 。 为 了 形成 散 套 输出 ，XQuery AREKE 
(可 能 相关 的 ) 查询 输出 。 我 们 将 依次 研究 每 一 种 FLWOR 子 句 。 


or: 集合 上 的 迭代 和 绑 定 


指定 查询 操作 对 象 的 最 常见 方式 是 为 匹配 模式 的 每 个 节点 绑 定 变量 。for 子 句 允许 定 
义 涉 及 XPath 返回 节点 序列 的 变量 。 语 法 是 for Svar in XPath- 表 达 式 。 可 以 用 骨 套 的 for 子 
句 绑 定 多 个 变量 。 为 了 变量 的 每 个 可 能 的 赋值 ，XQuery 引擎 对 where 条 件 子 句 和 可 选 的 
return 内 容 加 以 计算 。 


例 11. 13 假设 在 my. org 服务 器 上 存放 有 称 为 dblp. xml HSC. MARE ALA F AS tik 
套 for 子 句 序列 : 


for $docRoot in doc(” my bip.xm)™) 
for $rootElement in "$docRoot/dbip 
for $rootChild in $rootElement/article 


则 ， 变 量 $docRoot 采用 单一 的 值 ， 即 XML 源 文件 的 文档 根 节 点 。 变 量 $rootElement 和 迭代 
文档 根 的 子 元 素 一 一 称 为 XML 文件 的 (单一 ) 根 元 素 。 接 下 来 ， $rootChild 迭代 根 元 素 
的 所 有 子 元 素 节 点 。 <<< 


可 以 用 替代 形式 缩写 艇 套 的 for 子 句 ， 该 形式 用 逗号 分 隔 前 后 的 表达 式 ， 忽 略 第 二 
for 子 句 。 


例 11.14 图 11-7 的 1~4 行 可 重 写 上 边 的 例子 。 





for $docRoot in doc( "http:;.; 
$rootElement in SeOERODRYabTp,. 
$rootChild in $rootElement/article 
let $textContent := $rootChild//text() 
where $rootChild/author/text() = "Bob" 
order by erecubtal Tire ee 


return <BobRes 
{ el } 
{ $rootChild/title } 
{ for $txt in $textContent 
return <text> { $txt } </text> 





图 11-7 简单 的 XQuery 例子 <<< 


let: 集合 到 变量 的 赋值 


不 同 于 SQL, XQuery 有 集 值 变量 的 概念 。 这 里 ， 集 合 可 能 是 节点 的 序列 或 者 标量 值 。let 
子 句 允许 分 配 任何 集 值 表达 式 (如 XPath) 的 结果 给 变量 。 语 法 是 let Svar; = 集合 表达 式 。 
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例 11. 15 继续 上 面 的 例子 , 图 11-7 的 前 4 行为 每 个 $rootChild 的 值 分 配 一 个 到 $text- 
Content 的 不 同 值 ， 即 在 元 素 子 树 中 出 现 的 所 有 文本 节点 的 集合 。 Sex 


where: 对 绑 定 条 件 的 处 理 

对 于 for 和 let 子 句 中 每 个 变量 的 取 值 ，XQuery 引擎 处 理 where 子 句 中 的 谓词 。 如 果 满 
足 这 些 谓词 ， 则 触发 return 子 句 产生 输出 。XQuery 的 执行 模式 可 认为 是 在 “元 组 绑 定 ” 
(为 来 自 每 一 数据 源 的 每 一 变量 赋 一 个 值 ) 条 件 下 的 连接 、 选 择 和 投影 。where 子 句 完成 
选择 和 连接 操作 。 


例 11.16 如 图 11-7 的 1~5 行 所 示 ， 可 以 对 我 们 的 例子 加 以 限制 , 仅 考虑 拥有 
“Bob” {HA editor FICA HJ $rootChild 元 素 。 <<< 


return: XML 树 的 输出 


当 满 足 where 条 件 时 ，return 子 句 被 触发 ， 其 输出 片段 是 典型 的 XML 树 。return FAJ 
输出 的 内 容 是 XML 值 ， 或 者 是 基于 绑 定 变量 的 表达 式 (XPath 表达 式 ) 的 计算 结果 ， 也 
MERE XQuery 的 计算 结果 。 

如 果 rutun 子 句 以 尖 括 号 或 者 字面 值 开 始 ， 则 XQuery 引擎 无 论 读 取 什 么 内 容 ， 均 以 
给 定 的 字面 值 输出 。 为 避免 当做 表达 式 来 处 理 ， 可 以 用 转 义 字符 | 和 | 来 表示 。 


order by: 改变 返回 输出 的 顺序 


根据 一 个 或 多 个 排序 关键 字 (作为 一 个 相对 于 边界 变量 的 Xpaths IRE), order by 
子 句 允许 改变 返回 内 容 的 顺序 。 


例 11.17 图 11-7 中 的 完全 查询 使 我 们 的 例子 更 加 完整 : 每 次 匹配 “Bob” 则 返回 
XML 子 树 。 在 XML 子 树 中 ， 输 出 在 子 树 $rootChild 内 的 editor 和 title, Æ $textContent 内 ， 
HREH XQuery 和 迭代 全 部 的 文本 节点 ， 并 输出 每 个 节点 到 用 text 标记 的 元 素 中 。 <<< 


RAE 

SQL 允许 在 SELECT 子 句 或 者 聚集 函数 (比如 ，COUNT DISTINCT) 中 用 DISTINCT 关键 
字 指 明 删 除 重复 元 组 。 在 XQuery 中 ， 用 集 值 函 数 来 处 理 去 重 计算 , 集 值 函数 本 质 上 是 把 有 
序 序列 转换 成 有 序 集合 。 在 大 多 数 的 XQuery 实现 中 有 两 个 函数 : fn; distinct- values #1 fn; 
distinct-nodes ， 获 得 节点 序列 ， 并 移 除 匹配 值 相等 或 者 节点 一 致 的 项 。 这 些 函 数 可 应 用 于 
XPath 表达 式 的 结果 和 XQuery 的 输出 等 。fn: distinct-values 甚至 可 以 应 用 于 标量 值 的 集合 。 

作为 计算 唯一 值 的 方法 ，XQuery 中 聚集 的 执行 方式 与 SQL 完全 不 同 。 在 XQuery PH 
有 GROUP BY 结构 ， 因 此 在 分 组 表 中 聚集 函数 没有 应 用 到 属性 列 。 相 反 地 ， 聚 集 函 数 只 把 
集合 当做 变量 ， 并 返回 代表 函数 结果 的 标量 结果 ， 这 些 函 数 包括 : fn: average, fn; max, 


fn; min, fn; count 和 fn: sum, 


B11. 18 假设 需要 计算 图 11-2 显示 的 文档 中 每 个 作者 (假设 作者 名 是 规范 化 的 ) 
写 的 论文 或 者 文章 的 数量 。 我 们 通过 计算 所 有 作者 的 集合 ， 再 找到 每 个 作者 文章 的 方式 来 
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表述 ， 而 不 是 用 GROUP BY 结构 。 


let $doc := doc(" é. 
let $authors := fn: distinet- values($doc//author/text()) 
for $auth in $authors 
return “aut 

{ $auth } 

{ let $papersByAuth := $doc/*[author/text() = 

$auth] 
return ¿päj 


Ount 
{ fn:count(papersByAuth) } 


{ $papersByAuth/title } 
} 


这 里 ， 内 部 查询 计算 作者 全 部 论文 的 集合 ， 然 后 返回 数量 和 名 称 的 完整 列表 。 <<< 


RH ACH 


对 数据 集成 而 言 ，XQuery 的 一 个 非常 重要 的 方面 是 具有 数据 和 元 素 之 间或 者 数据 与 
属性 名 之 间 的 转换 ， 这 在 之 前 的 讨论 中 没有 相同 的 处 理 。 回 顾 11. 3. 2 节 ， 通 过 用 类 似 于 
name, local-name 和 namespace-uri 的 XPath 函数 ， 我 们 可 以 检索 与 元 素 或 属性 节点 关联 的 
名 字 和 命名 空间 信息 。 在 XQuery 中 ， 这 样 的 函数 不 仅 可 以 用 在 与 for 或 let 子 句 关联 的 
XPaths 中 ， 而 且 作 为 通用 谓词 可 以 用 在 查询 的 任意 位 置 。 

此 外 ， 在 return 子 句 中 ， 我 们 可 以 使 用 计算 构造 函数 (computed constructors) 的 ele- 
ment ( 带 名 称 和 结构 化 内 容 ) 和 attribute ( 带 名 称 和 字符 串 值 ) 。 默 认 情 况 下 ， 名 字 当 做 
字面 文本 ， 因 此 必须 用 括号 包含 表达 式 。 


例 11. 19 考虑 如 下 的 XML: 
for $x in doc (“dbip.xml")/dblp/*, 

$year in $x/year, 

$title in $x/title/text() 

where local-name( $x) 

return 

element { name($x) } { 

attribute key { $x/key } 

attribute { “year "+ $year } { $title } 
} 


为 了 查询 和 构造 元 数据 ， 它 利用 了 多 个 操作 符 。 开 始 ， 绑 定 $x 到 根 元 素 的 任何 子 元 素 ， 
但 用 local-name 的 条 件 来 限定 不 是 大 学 的 子 元 素 的 查询 。 在 返回 子 句 中 ， 输 出 一 个 名 字 和 初 
始 的 $x 一 样 ， 但 内 容 不 同 的 计算 元 素 。 新 元 素 有 两 个 计算 属性 : 一 个 是 带 有 原始 键 值 属性 
值 的 属性 key， 另 一 个 是 其 名 称 由 字符 串 “year- ”和 绑 定 的 $year 值 拼接 而 成 的 属性 。 <<< 


BKZ 

XQuery 没有 明确 的 《如 SQL 中 的 ) 视图 概念 表达 方式 。 但 XQuery 支持 任意 可 返回 标 
量 值 、 节 点 (如 XML 的 树 根 ) 或 集合 (如 标量 或 XML 节点 / 树 ) 的 函数 。 因 为 函数 可 以 
返回 XML 森林 或 树 ， 所 以 可 以 将 其 当做 可 参数 化 的 视图 。 

TER, XQuery 在 函数 中 允许 递归 、if/else 和 迭代 ,与 SQL 不 同 ， 该 语言 是 图 灵 完 备 的 。 
XQuery 里 的 函数 用 关键 字 declare function 指定 ， 关 键 字 后 跟 函 数 名 、 变 量 和 类 型 ， 然 后 是 关键 
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字 as 和 函数 返回 类 型 。 注 意 ， 变 量 类 型 和 返回 类 型 均 是 XML 模式 的 类 型 。 如 果 没 有 伴随 模式 ， 
可 用 element () 指定 一 个 通用 元 素 ， 用 element(n) 指定 一 个 带 特定 名 的 无 类 型 元 素 。 


例 11.20 下 面 的 函数 返回 dblp. xml 文档 中 的 全 部 作者 。 注 意 ， 我 们 把 函数 放 人 
“my, ”的 命名 空间 ， 假 设 “my,” 已 定义 。 

declare function my:paperAuthors() as element(author)* { 
return doc( ")//author 
E 


注意 ， 这 里 的 返回 类 型 是 称 为 author 的 零 个 或 多 个 元 素 (因此 用 星 号 标注 ) ， 该 类 型 
可 能 〈 未 必 ) 有 伴随 的 XML 模式 类 型 。 <<< 


例 11.21 下 面 的 函数 返回 与 输入 变量 $n 指定 的 作者 姓名 一 起 撰写 文章 的 合 著者 的 
数量 。 流 程 如 下 : Kit $n 撰写 的 每 篇 文章 的 作者 集合 ， 然 后 删除 重复 的 记录 ， 最 后 计算 
记录 的 数量 ， 为 避免 计算 自己 ， 最 后 需要 减 1。 

let $authors := doc(' vn “)/articleLauthor/text()=$n]/ 


author 
return fn:count(fn:distinct-values($authors)) - 1 


注意 ， 这 里 的 返回 类 型 指定 为 author 的 零 个 或 多 个 元 素 (因此 用 星 号 标注 ) ， 该 类 型 
可 有 (也 可 以 没有 ) 伴随 的 XML 模式 类 型 。 <<< 


11.4 XML 查询 处 理 


我 们 已 经 熟悉 XML 的 格式 及 其 查询 语言 ， 接 下 来 考虑 针对 XML 数据 的 、 以 XPath 和 
XQuery 形式 表达 的 查询 处 理 问题 。 本 质 上 ，XML 是 一 个 树 形 结构 ， 是 非 第 一 范式 的 数据 
类 型 。 大 规模 XML 查询 处 理 的 主要 工作 ， 特 别 是 XPath 与 输入 数据 的 匹配 问题 ， 主 要 关 
注 数据 在 磁盘 中 存储 的 情况 ， 如 关系 型 DBMS。 主 要 的 挑战 是 如 何 分 解 XML 树 并 为 其 建立 
索引 (如果 用 一 个 “本 地 的 ”XML 存储 系统 ) ， 或 者 如 何 把 XML“ 分 解 ”到 关系 元 组 中 。 

直观 地 讲 ， 后 一 种 情况 的 目标 是 取 每 个 XML 节点 并 在 关系 表 中 创建 对 应 的 元 组 。 为 
每 个 元 组 进行 编码 ， 以 表示 它 与 父 节 点 〈 可 能 是 祖先 ) 和 子 节点 (可 能 是 后 代 ) 的 关系 。 
一 个 通用 的 方法 是 用 一 个 间隔 码 (interval code) 编码 每 个 元 组 7， 间 隔 码 描 述 了 元 组 了 所 
对 应 的 节点 在 树 中 第 一 项 和 最 后 一 项 的 位 置 : 这 样 通过 比较 元 组 7, AT, 的 间隔 码 ， 就 可 
判断 两 个 元 组 所 对 应 子 树 的 包含 关系 。 

在 数据 集成 中 ， 最 耗 时 的 处 理 往往 是 读 取 XML 源 文件 和 提取 匹配 特定 XPath 表达 式 
的 子 树 。 我 们 的 目标 是 一 次 读 取 、 解 析 和 提取 与 每 个 源 文档 匹配 的 XPath ， 而 不 是 在 提取 
相关 树 之 前 存储 XML。 这 通常 称 为 “ 流 式 XPath 处 理 ”。 

流 式 XPath 处 理 依赖 以 下 两 个 重要 的 观察 : 

1) SAX 风格 的 XML 解析 可 以 非常 有 效 地 匹配 从 输入 流 ( 比 如， 通过 网 络 ) 读 取 的 
XML。 无 论 何 时 遇 到 特定 的 内 容 类 型 、 开 始 标签 或 者 结尾 标签 ， 都 可 以 用 回调 函数 接口 触 
发 事件 处 理 程序 。 这 可 以 使 得 解析 的 数据 按 流水 线 方式 传输 到 查询 处 理 器 系统 。 

2) XPath 表达 式 的 大 子 集 可 以 映射 成 正则 表达 式 ， 其 字符 集 为 可 能 的 边缘 标记 和 通 配 
符 的 集合 。 通 常 以 每 个 XPath 的 一 组 嵌 套 正则 表达 式 为 结尾 〈 因 为， 谓词 必须 分 离 匹配 ) 。 

基于 事件 处 理 程序 和 改进 的 有 限 状态 机 ， 这 些 观察 产生 了 各 种 XML AA XPath 匹配 
器 。 流 式 XPath 匹配 器 通常 返回 节点 集合 ， 或 者 如 果 XQuery 同时 匹配 多 个 Xpath， 则 返回 
绑 定 节点 的 元 组 集合 〈 比 如 ， 每 个 变量 存在 一 个 属性 的 元 组 ， 其 值 是 节点 的 参照 或 节点 的 
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参照 集合 ) 。 这 些 绑 定 的 元 组 通常 由 一 个 扩展 的 关系 类 型 的 查询 处 理 器 处 理 ， 该 处 理 器 有 
标准 的 操作 集合 〈 比 如 ， 选 择 、 投 影 、 连 接 ) ， 也 有 一 些 新 的 操作 ， 比 如 ， 对 元 组 中 的 树 
形 值 的 属性 计算 XPath 、 增 加 XML 标签 和 搜集 元 组 序列 或 集合 到 XML 树 中 。 最 后 ， 用 标 
签 和 分 组 操作 符 的 集合 在 结尾 处 聚集 XML 内 容 ， 并 以 树 的 形式 输出 。 


例 11.22 图 11-8 展示 的 是 一 个 典型 的 针对 XML 数据 的 查询 计划 的 例子 ， 与 图 11-7 


(<BobResult><editor>Paul R. McJones</editor> 
<title>The 1995...</title><text>Paul R. McJones</text> 
<text>The 1995...</text></BobResult>) 

















XML 
tagging 


(<editor>Paul R. McJones</editor>, 
<title>The 1995...</title>, 
II <text>Paul R. McJones</text><text>The1995...</text>) 


(<article>...</article>, [Paul R. McJones”,“The 1995...”,...], 
<editor>Paul R. McJones</editor>, 


<title>The 1995...</title>, 
<text>Paul R. McJones</text><text>The 1995...</text>) 


$ editor Oo 
$title 150 


(<dblp>...</dblp>, <article>...</article>, [‘Paul R. McJones”,“The 1995...",...]) 









(<article>...</article>, 
[‘Paul R. McJones",“The 1995...”,...]) (<text>Paul R. McJones</text>) 


(<text>The 1995...</text>) 


(‘Paul R. McJones”) 
(‘The 1995...”) 












XPath 
matcher 


$ rootElement ‘oQ 


$ rootChild Rro 
1 author 去 
$ textContent Ge : 






Streaming 
XPath 


图 11-8 图 11-7 的 查询 计划 缩 略 图 。 大 部 分 引擎 保持 元 组 处 理 器 ， 这 里 的 
元 组 不 再 是 第 一 范式 的 形式 ， 而 是 包含 〈 参 照 ) 树 的 绑 定 元 组 
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中 的 查询 相对 应 。 从 底部 开始 ,我们 看 见 一 个 读 取 并 解析 dblp. xml 的 流 式 XPath 操作 符 ， 
查找 对 应 于 根 元 素 与 其 孩子 和 后 代 的 文本 内 容 的 子 树 。 该 操作 符 为 rootElement、rootChild 
和 textContent 返回 带 值 的 元 组 ， 其 中 前 两 个 是 树 ， 最 后 一 个 是 森林 。 然 后 ， 用 一 个 嵌 套 表 
达 式 左 外 连接 这 些 元 组 。 这 个 舱 套 的 表达 式 匹 配 一 个 与 textContent 中 的 森林 相对 应 的 
Xpath ， 并 为 txt 返回 带 值 的 元 组 序列 。 在 元 素 text 内 标记 这 些 元 组 ， 并 将 这 些 元 组 分 组 到 
森林 中 。 左 外 连接 的 结果 被 用 于 进一步 的 XPath 匹配 ， 从 rootChild 中 提取 editor 和 title, 
进一步 投影 后 ， 每 个 元 组 都 创建 元 素 BobsResult， 其 孩子 被 设 定 为 editor、title Mie RIA 
式 的 结果 。 最 终 的 结果 是 BobsResult 元 组 的 序列 ， 该 序列 可 被 写 到 硬盘 或 数据 流 中 。 <<< 


下 面 给 出 实现 操作 符 的 具体 内 容 。 
11.4.1 XML 路 径 匹 配 


XML 路 径 匹配 操作 符 以 两 种 形式 出 现 ， 一 个 是 对 输入 数据 的 流 式 计算 ， 另 一 个 是 对 
绑 定 元 组 属性 上 的 树 的 遍历 。 两 者 具有 相同 的 实现 机 制 ， 即 作为 事件 驱动 的 XML 树 的 解 
析 器 的 处 理 程序 。 

下 面 考虑 XML 路 径 匹配 器 的 各 种 设计 要 点 。 


自动 机 的 类 型 


一 般 地 ， 在 单一 的 XPath 片段 内 〈 被 /或 V 分 离 的 一 系列 步骤) ， 通 配 符 或 者 步骤 
“V” 人 允许 在 每 一 层 进行 多 次 匹配 。 这 就 引入 了 不 确定 性 ， 并 且 在 这 种 情况 下 ， 需 要 考虑 
多 种 机 制 来 处 理 数 据 。 第 一 种 方案 是 为 XPath 建立 单一 的 非 确定 性 有 限 状 态 机 (NFA), 
同时 记录 多 种 可 能 的 匹配 。 第 二 种 方案 是 将 表达 式 转 换 成 一 个 确定 性 有 限 状态 机 (DFA), 
第 三 种 方案 建立 在 之 前 的 方法 之 上 ， 创 建 一 个 NFA 并 按照 需要 “延迟 ”扩展 到 DFA (组 
存 扩展 的 部 分 ) 。 


例 11.23 我 们 可 以 通过 图 11-9 中 例 11.7 和 例 11. 8 的 两 个 XPaths 例子 来 观察 NFA。 


根据 XPath 匹配 的 特定 样式 ，NFA 可 以 在 内 存 中 直接 构建 ， 并 匹配 对 应 的 输入 事件 ， 或 者 
(立即 或 延迟 地 ) 转换 成 DFA 进行 匹配 。 


i Year 
~ dblp Article 


图 11-9 XPaths /dblp/article 和 /year 的 非 确定 性 有 限 状 态 机 。 注 意 ， 自 动机 
内 部 边 标 签 上 的 代表 所 有 可 能 标签 的 字母 表 ， 比 如 ， 通配符 <<< 


计算 子路 径 的 不 同 模式 


许多 XPath 有 ”附属 ” 段 ， 比 如 ， 谓 词 内 的 柑 套 路 径 。 可 以 创建 具有 不 同 最 终 状态 的 
单一 自动 机 用 以 指明 XPath 匹配 的 情况 ， 或 者 可 以 创建 一 系列 嵌 套 自动 机 ， 其 中 一 个 自动 
机 匹配 即 可 激活 其 他 的 自动 机 。 
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谓词 下 推 和 短路 
在 任何 情况 下 ， 谓 词 可 能 包含 超越 简单 路 径 存在 测试 的 操作 符 ， 常 常会 被 下 推 到 路 径 
匹配 阶段 。 这 里 ，XPath 匹配 器 必须 附属 逻辑 来 完成 诸如 判断 文本 节点 值 相 等 的 谓词 检验 。 
315| 丢掉 任何 不 匹配 结果 。 


XPATH 与 XQUERY 

如 果 查 询 处 理 器 正在 计算 XPath 查询 ， 那 么 XPath 处 理 器 的 目标 是 为 每 个 查询 返回 一 
个 节点 集合 。 然 而 ， 有 时 的 目标 是 为 XQuery 的 for (有 时 是 let) 子 句 提供 输入 绑 定 元 组 集 
合 。 这 里 ， 我 们 希望 可 能 节点 的 笛 卡 儿 积 与 一 组 XPath 集合 匹配 。 操 作 符 x- scan 将 XPath 
匹配 和 扩展 的 流水 线 散 列 结合 起 来 ， 以 便 让 处 理 的 绑 定 元 组 以 增 量 形 式 输出 。 


例 11. 24 在 流 操作 符 内 计算 XQuery ， 第 一 阶段 同步 匹配 与 for 和 let 表达 式 对 应 的 XPath 
的 层次 结构 (如 图 11-10， 对 应 于 图 11-8 的 最 左边 的 叶子 操作 符 )。 为 了 这 个 流 式 XPath 匹配 
器 ， 到 达 一 个 NFA 的 最 终 状 态 可 能 触发 特定 的 动作 。 例 如 ， 一 个 动作 是 根据 髓 套 的 XPath， 第 
一 个 NFA 匹配 可 能 激发 其 他 嵌 套 的 NFA。 而 且 ， 特 定 模 式 的 匹配 可 能 需要 检查 对 应 的 特定 值 的 
还 配 (谓词 下 推 ， 表明 一 个 author = “Bob” 的 检测 ) ， 并 且 我 们 可 能 增加 集合 的 匹配 ， 而 不 是 
增加 每 个 匹配 的 绑 定 〈 相 对 于 其 他 的 for FAJ, $rootElement//text()let 子 句 是 需要 的 )。 


~ dblp 
$ rootElement 
AE rticle 
$ rootChild $ O=O 


: author 
="Bob" 


$ textContent (3 sont) set] 


图 11-10 为 匹配 图 11-7 的 XQuery 中 XPath 集合 的 非 确定 性 有 限 状 态 机 的 层次 结构 。 注 
T, 我 们 可 以 向 上 到 达 机 器 的 最 终 状 态 来 激活 其 他 的 (组 套 ) XPath， 并 且 需 
要 针对 集合 内 部 的 搜集 或 者 数值 来 测试 匹配 


NFA 集合 的 流 操作 符 的 输出 将 是 变量 rootElement，rootChild 和 (集合 类 型 的 ) text- 
Content 的 一 系列 绑 定 元 组 。 例 11. 22 描述 了 如 何 从 流 式 XPath 处 理 器 输出 更 多 的 细节 ， 该 
处 理 器 通过 查询 计划 里 的 其 他 操作 符 进 行 传播 。 <<< 


11.4.2 XML 输出 


在 元 组 里 创建 XML 的 过 程 常 常 分 解 成 两 种 操作 。 
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加 标签 
以 一 个 属性 为 输入 ， 并 包 庄 到 一 个 XML 元 素 或 属性 里 。 在 某 些 情况 下 ， 需 要 测试 结 
构 良 好 的 属性 〈 比 如 ， 在 一 个 属性 内 某 些 内 容 的 类 型 是 非法 的 ) 。 


分 组 


在 单一 的 集 值 属性 内 获得 (具有 一 些 相 同 的 主 属性 ) 元 组 集合 ， 并 对 结果 进行 合并 。 
除了 代替 计算 属性 上 的 标量 聚集 值 外 ， 与 SQL 的 GROUP BY 类 似 ， 都 是 收集 所 有 不 同 的 
属性 值 来 形成 一 个 XML 森林 。 

XQuery 处 理 的 另 一 个 关键 部 分 倾向 于 在 return 子 句 里 进行 向 套 。 往 往 用 左 外 连接 操作 
符 实现 ， 如 例子 11. 22 所 示 。 

本 章 的 重点 是 实现 类 SQL 的 XQuery 核心 。 支 持 递归 函数 和 一 些 XQuery 的 更 高 级 的 特 
E, 通常 需 要 额外 的 操作 符 ， 比 如 ， 有 些 函 数 调 用 加 上 if/else 结构 体 帮 助 决定 终止 时 间 、 
针对 XML 模式 类 型 的 节点 查询 和 调用 库 函 数 的 支持 等 。 


11.4.3 XML 查询 优化 


作为 语言 的 核心 部 分 ，XQuery 优化 与 传统 的 关系 优化 略 有 不 同 : 其 过 程 是 枚 举 、 代 
价 和 基数 的 评估 。 其 挑战 在 于 XML 所 具有 的 特殊 性 。XQuery HE SQL 有 更 强 的 表达 力 ， 在 
所 有 语言 的 子 集 上 ，XQuery 的 基于 代价 的 优化 器 是 最 有 效 的 。 即 使 对 于 子 集 来 讲 ， 它 也 
比 标准 SQL 有 更 多 的 潜在 重 写 情况 。 

此 外 ，XPath 匹配 的 基数 (也 就 是 代价 ) 更 难以 确定 : 其 本 质 是 估算 XML 文档 不 同 
部 分 的 肩 出 数 。 为 此 ， 人 们 提出 了 新 的 元 数据 结构 用 来 方便 估算 扇 出 因子 。 

事实 上 ， 带 函数 的 XQuery 是 图 灵 完 备 的 一 一 这 需要 一 种 类 似 优化 函数 程序 设计 语言 
的 方法 来 优化 XQuery 的 函数 调用 。 不 过 这 已 超出 了 本 书 的 讨论 范畴 。 


11.5 XML 模式 映射 


ZKE, XML 在 模式 映射 方面 带 来 了 新 的 复杂 性 ， 主 要 有 以 下 两 个 方面 : 

。 XML 是 半 结 构 化 的 ， 也 就 是 说 ， 不 同 的 XML 元 素 (即使 是 相同 的 类 型 ) 在 结构 
上 可 能 有 变化 。 此 外 ，XML 查询 包含 多 个 带 可 选 通配符 和 递归 的 路 径 表 达 式 。 因 
此 ， 查 询 限制 的 条 件 有 些 不 同 。 

。 XML 包含 嵌 套 ， 特 定 的 伦 套 关系 在 源 实例 和 目标 实例 之 间 可 能 有 所 不 同 。 因 此 ， 
MEREKA XML 映射 内 的 节点 上 的 可 选 合 并 操作 是 必要 的 。 

此 外 ， 在 不 同 的 条 件 下 我 们 希望 为 数据 值 的 每 次 出 现 输出 一 个 XML 元 素 ， 其 他 情况 

下 ， 我 们 希望 为 每 个 唯一 的 出 现 输出 一 个 XML 元 素 一 一 大 致 类 似 于 包 语 义 和 和 集合 语义 。 
在 本 节 中 ， 我 们 讨论 XML 模式 映射 的 特定 方法 ， 以 及 基于 此 的 查询 表达 。 


11.5.1 rar St 


作为 具有 复杂 模式 语言 的 层次 数据 模型 ，XML 使 得 模式 映射 问题 比 在 关系 模型 中 更 加 复 
杂 。 即 使 对 于 关系 模型 ， 我 们 也 支持 任意 SQL 作为 映射 语言 。 相 反 ， 我 们 专注 一 个 子 集 ， 
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即 ， 在 LAV、GAV 或 者 GLAV 中 的 合 取 查 询 (对 后 者 可 能 用 ted 而 不 是 用 GLAV 规则 ) 。 

同样 ， 对 于 XML 的 模式 映射 来 说 ， 很 难 利 用 XQuery 的 全 部 功能 。 而 是 ， 用 一 个 以 嵌 
套 元 组 生成 依赖 为 基础 的 简化 的 映射 语言 。 本 节 介 绍 了 使 用 如 Piazza-XML 这 样 一 种 语言 
进行 XML 映射 的 基本 问题 ， 然 后 介绍 诬 套 元 组 生成 依赖 。 


Piazza-XML fet 
Piazza- XML 映射 语言 来 源 于 XQuery 子 集 。 它 包含 一 些 列 在 | ::| 内 带 可 选 查询 标注 
WR XML 元 素 和 属性 。 每 个 查询 标注 用 XPath 表达 式 定 义 不 同 的 绑 定 ， 后 跟 在 er 
里 作为 for 子 句 的 相同 语义 和 作为 where 子 句 指定 的 条 件 。 在 父 元 素 的 每 个 实例 内 ， 
每 个 绑 定 组 合 满足 关联 的 查询 标注 ， 就 产生 每 个 被 标注 的 元 素 。 rd 
素 及 其 后 代 的 查询 标注 是 可 见 的 。 用 下 面 的 例子 加 以 说 明 。 


例 11.25 假设 我 们 想 在 两 个 站 点 间 映 射 包含 带 骨 套 authors 的 books 的 目标 站 点 和 
EA tir HK publications 的 authors 的 源 站 点 。 图 11-11 给 出 了 数据 源 的 部 分 模式 ， 采 用 类 
似 BNF 语法 的 格式 ， 用 缩 进 代 表 骨 套 用 * 后 缀 代表 零 或 多 次 的 出 现 。 





目标 : 源 : 
pubs authors 
book» authors 
title full-name 


author publication 
name title 

publisher« pub-type 
name 





图 11-11 XML 映射 的 两 个 样式 (目标 和 源 ) 的 例子 


假设 我 们 知道 输入 pub-type 必须 是 book ， 并 且 出 版 商 有 一 个 没有 出 现在 输入 文档 中 的 
名 字 。 对 应 的 Piazza- XML 模式 映射 如 图 11-12 所 示 。 我 们 观察 到 ， 因 为 元 素 pubs 只 出 现 
一 次 ， 所 以 没有 被 标注 。 那 么 ， 标 注 中 的 每 一 个 $a、$t 和 $type 组 合 ， 都 会 产生 一 个 元 
A book, HEF book 中 的 verb-title- 和 author name, H-5 ARBRE J XPath/XQuery 表达 
sh, IFLA XQuery 样式 直接 艇 入 它 的 输出 。 












: $a IN doc( "source.xmi")/authors/author, 
$t IN $a/publication/title/text(), 
$typ IN $a/publication/pub- type 
WHERE Fuh = "bo k” eh 
titie>{ $t } 











ne> { $a/full-name/text() } </nan 


图 11-12 fei) 11. 11 的 Piazza-XML 映射 <<< 


从 实例 中 观察 到 Piazza-XML 语言 利用 认 套 表达 式 的 相关 性 允许 多 个 赃 套 层 。 藤 套 查 
询 语言 可 与 第 3 章 的 映射 形式 相连 。 
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上 面 例子 的 一 个 挑战 是 ， 如 果 一 本 书 有 两 个 出 版 社 ， 则 会 产生 两 个 书 元 素 。 为 了 解决 
这 个 问题 ，Piazza-XML 语言 有 一 个 特定 的 保留 标签 piazza: id， 该 标签 定义 了 一 组 分 组 条 
件 。 在 piazza: id 中 通过 值 的 组 合 和 父 元 素 生成 一 个 被 标注 元 素 的 实例 。 


例 11.26 图 11-13 展示 了 映射 的 精简 版 本 ， 这 次 为 每 个 唯一 的 书 标题 产生 单一 的 元 
素 book 和 单一 的 title。 为 每 本 书 和 每 个 作者 生成 一 个 元 素 author, 


{: $a IN doc( seurce. xm] ”")/authors/author , 
$t IN $a/publication/title/text(), 
$f IN $a/full-name/text(), 
$typ IN $a/publication/pub-type 
WHERE $typ = "book" :} 
le pia sid=($tho{ $t } 








f $a} < 





图 11-13 和 带 删 除 重复 的 改进 的 Piazza- XML 映射 <<< 


we tgd 

3. 2. 5 节 中 生成 元 组 依赖 关系 是 全 局 和 局 部 作为 视图 映射 的 一 种 表达 方式 。 正 如 我 们 
已 经 说 明 过 的 ，tgd 是 一 个 关于 关系 实例 的 断言 。 这 种 限制 的 应 用 已 在 10. 2 节 中 讨论 过 。 
然而 ， 本 节 我 们 的 兴趣 不 是 关系 实例 ， 而 是 分 层 侍 套 的 实例 ， 比 如 ，XML。 

定义 11.1 ( 藤 套 的 元 组 生成 依赖 ) —PRKRAHAMERRM (KAM ted) 是 一 个 
关于 源 数据 实例 和 目标 数据 实例 的 关系 断言 。 形 式 为 : 

E WX,Y,S(b(X,Y) A ®(S) > 3 2,T(y(X,2) A y(7))) 
RE, X, Y, 是 代表 属性 的 变量 ; 由 和 小 分 别 是 源 实例 和 目标 实例 的 原子 公式 ; S 和 了 
是 代表 误 套 关系 的 集 值 变量 ; 四 和 山 是 原子 公式 的 集合 ， 分 别 表示 5 和 了 的 各 个 变量 。 每 
个 了 内 的 集 值 变 量 必 须 有 一 个 组 键 ， 它 指定 变量 的 斯 柯 伦 (Skolem) 函数 应 用 于 唯一 指定 
要 求 的 输出 集合 一 例如， 多 重 匹配 tgd 的 右 侧 必须 使 用 相同 的 集合 。 

上 面 提 到 的 组 键 实际 上 和 用 在 Piazza-XML 映射 语言 中 的 piazza: id 是 相同 的 。 如 下 表 
示 了 例 11. 26 的 模式 映射 。 


例 11.27 如 下 定义 一 个 诅 套 的 ttd， 这 里 我 们 忽略 全 称 量词 〈( 隐 含 所 有 出 现在 左 侧 
的 变量 ) ， 黑 体 字 表示 集合 类 型 (关系 型 ) 变量 ， 以 变量 名 作为 下 标的 原子 指定 组 键 : 
authors(author) ^ author(/, publication) 和 人 publication(t, book) 一 
3p(pubs (book) ^ book; (t, author’, publisher) ^ author’, (f) A publisher,(p)) 


在 这 个 表达 式 中 ， 我 们 把 输出 的 XML 结构 (用 带 不 同 元 素 和 标注 的 Piazza- XML 语言 
表示 ) 看 做 一 系列 能 套 的 关系 ， 从 而 反射 出 层次 结构 。 

当 目标 的 相同 节点 必须 被 用 来 满足 右 侧 时 ， 用 组 键 来 指定 ， 类 似 于 用 piazza: id 指定 。 
在 输出 中 ， 创 建 单一 的 根 元 素 pubs, EE pubs 内 的 元 素 book 代表 每 一 个 唯一 的 书 名 ; 
在 book 内 增加 一 个 author (为 每 个 书 名 -作者 的 关联 创建 ) 和 单一 的 “未 知 的 ”publisher 
条 目 (为 每 一 个 书 名 单独 创建 ) 。 << 
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关于 组 键 的 变量 ， 上 边 的 例子 暗示 了 两 个 约束 条 件 ， 尽 管 常常 是 隐 含 的 ， 但 在 Piazza- 
XML 中 也 是 真 的 。 第 一 ， 如 果 一 个 父 节 点 〈 比 如 ，book) 有 一 个 作为 组 键 的 特殊 变量 ， 
那么 所 有 的 后 代 元 素 也 必须 作为 组 键 继承 该 变量 。 这 确保 了 树 的 结构 ， 因 为 不 同 的 父 元 素 
不 共享 相同 的 后 代 。 第 二 ， 与 在 publisher 中 一 样 ， 组 键 不 能 包含 存在 变量 。 

ARER ted 的 常见 应 用 (类似 于 传统 的 ted) 是 用 于 推断 目标 实例 元 组 的 约束 条 
件 。 本 质 上 ， 我 们 用 称 为 追逐 〈chase) 的 过 程 生成 目标 实例 ， 该 实例 带 有 所 有 需要 满足 约 
束 条 件 的 元 组 。 这 称 为 数据 交换 ， 已 在 10.2 节 中 讨论 过 。 然 而 ， 如 下 节 所 述 ， 我 们 可 以 
在 查询 重 写 中 使 用 能 套 的 tgd。 


11.5.2 PRERAHSAES 


在 查询 重 写 中 ， 我 们 给 出 了 目标 模式 的 查询 ， 并 需要 用 语义 映射 来 转换 成 引用 源 模式 
的 查询 。 本 节 讨 论 的 XML 映射 可 看 做 一 个 GAV 映射 ,因此 我 们 仅仅 需要 将 视图 展开 ,将 
目标 模式 构成 的 查询 0 重 写 到 源 模式 构成 的 查询 OP. 

本 质 上 ， 这 和 用 在 标准 的 XQuery 引擎 中 的 查询 一 样 。 对 于 查询 中 带 有 分 组 (比如 ， 
由 于 piazza; id 或 Skolems) 和 复杂 XPath 表达 式 的 情况 ， 事 情 会 变 得 更 为 复杂 。 因 此 ， 这 
里 将 我 们 的 讨论 限制 在 简单 的 前 提 下 。 


例 11.28 假设 我 们 给 出 例 11. 25 没有 分 组 的 映射 的 查询 。 
| 


for $b in doc( "target.xmni")/pubs/book 
where $b/author/name="“Jones" 
retunn mateh> { $b/title } 


那么 ， 查 询 处 理 器 将 确定 : 对 每 个 源 author， 通 过 映射 将 变量 $b 对 应 于 元 素 book 的 
一 次 输出 ; $b/author/name 对 应 于 源 full-name; 并 且 通 过 映射 ，$b/title 精确 对 应 于 带 有 
值 $t 的 元 素 a 的 输出 。 我 们 将 得 到 一 个 如 下 的 查询 重 写 。 

for $b in ere our ")/authors/author, 
$t in $b/publication/title/text(), 
$typ in $b/publication/pub-type 

where $typ = “hook” and $b/full-name="Vorn: 


return <match { St J 
} 


除了 CAV 样式 的 重 写 外 ， 有 些 XML 模式 映射 系统 已 经 支持 双向 映射 的 重 写 ， 这 里 目 
标 模 式 的 查询 可 以 利用 源 模式 数据 回答 。 有 关 这 方面 的 讨论 参见 参考 文献 注释 。 <<< 


参考 文献 注释 


XML, XPath 和 XQuery 在 官方 的 W3C 推荐 (www. w3. org) 中 有 详细 的 讨论 。XQuery 
值得 阅读 的 介绍 (尽管 有 些 陈旧 )， 请 查阅 [96 ] 。 半 结构 化 数据 与 XML 的 关系 在 一 些 早 
期 的 工作 中 有 详细 的 讨论 ， 这 些 工 作 涉 及 适应 XML 的 半 结 构 化 语言 和 数据 库 ， 比 如 从 
StruSQ[ 225 | 中 派生 的 Lore 项 目 [258] 和 XML-QL 语言 [173]。 这 些 工作 倾向 于 从 数据 模型 
的 角度 对 XML 的 很 多 细节 (比如 ， 排 序 ) 加 以 抽象 ， 这 导致 XML 的 研究 以 数据 模型 为 基 
础 ， 而 不 是 以 文件 格式 为 基础 。 

本 书 广泛 研究 了 XPath 的 特性 和 查询 包含 。 综 述 [516 ] 、 著 名 的 论文 L430] 和 [457 ] ， 
以 及 论文 [517] 涉 及 了 如 何 验 证 流 XML 模式 符合 的 问题 。 流 XML 处 理 已 经 成 为 大 量 研 究 
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的 课题 ， 包 含 早 期 的 工作 XFilter[ 26 ] (支持 布尔 XPath 查询 ) 和 x- scan [325 ] (支持 在 
XQuery 中 的 for 子 句 的 处 理 ) 。 一 些 其 他 著名 的 流 处 理 模 式 包 括 支 持 使 用 延迟 DFA[270 ] 和 
注意 分 配 和 协调 类 似 XFilter 计算 的 YFilter[ 177] [476 ] 的 工作 用 一 个 下 推 的 转换 代替 
DFA。 另 一 个 有 趣 的 替代 物 是 假设 在 处 理 XPath 中 联合 的 多 并 发 流 (正如 人 们 看 到 的 ， 如 
果 文 档 以 分 区 的 形式 存放 在 本 地 ) 。 这 形成 了 有 关 “twig 连接 ”[97，131，272 ] 的 大 量 研 
究 工 作 。 这 项 研究 工作 更 适用 于 传统 数据 库 而 不 是 数据 集成 ， 因 此 我 们 在 本 章 中 不 做 讨 
论 ， 但 是 在 传统 数据 库 中 该 方法 是 非常 有 效 的 。 

当然 ， 流 XPath/XQuery 计算 不 适用 于 所 有 环境 。 包 含 关系 和 纯 XQuery 引擎 的 商业 软 
{F IBM DB2， 用 一 个 和 x- scan 非常 相似 的 ， 称 为 TurboXPath[ 335 ] 的 结构 体 处 理 分 层 的 
“oh XML” 数 据 页 面 写 到 磁盘 。 早 期 将 XML 处 理 纳 入 商业 数据 库 的 做 法 是 采用 “ 拆 分 
(shredding)” 方 法 (即将 XML 树 分 解 为 多 个 关系 来 存储 )[542] 。 之 后 ， 研 究 界 实 现 了 很 
多 纯 XQuery 引擎 ， 包 括 MonetDB/XQuery [ 590 ] (基于 MonetDB 的 列 存 储 结 构 )、Natix 
[340] 和 TIMBER[20] 。Active XML[3, 5] 具 有 散人 的 函数 调用 ， 在 分 布 式 环境 中 可 以 带 
来 新 的 数据 共享 和 集成 。 

在 很 多 环境 中 提 到 XML 的 模式 映射 。Piazza- XML 语言 是 基于 Piazza PDMS[ 287 ] 的 映 
射 ， 本 质 上 它 的 基础 和 IBM 的 Clio W H 4237 MARE tgd 一 样 。Clio HH WERE tgd 使 用 
类 似 XQuery 的 for/where 语法 的 “友好 ”语言 。Clio 没有 做 查询 重 写 ， 但 做 了 数据 交换 
(参见 10. 2 节 ) 。Piazza 做 了 基于 XML 的 查询 重 写 ， 本 章 的 讨论 是 基于 Piazza 的 工作 。 
Piazza 也 支持 使 用 双向 映射 ， 源 查询 可 以 根据 目标 进行 重 写 。XML 其 他 重 写 工 作 包 括 用 于 
MARS (混合 元 余 存 储 ) 项 目 中 [174 ] 的 基于 chase 的 推理 。 


321 
n 
322 


[325 | 


第 12 章 | 


Principles of Data Integration 


本 体 和 知识 表示 





知识 表示 (Knowledge Representation, KR) 是 许多 人 工 智能 应 用 系统 的 重要 组 成 部 
分 ， 如 智能 规划 器 、 机 器 人 、 自 然 语 言 处 理 器 以 及 游戏 系统 。 知 识 表示 系统 是 用 于 存储 应 
用 中 的 领域 模型 。 与 数据 库 系统 不 同 ， 知 识 表示 系统 需要 表示 更 复杂 、 可 能 不 完整 的 领域 
模型 ， 知 识 表示 系统 采用 推理 技术 回答 知识 查询 ， 是 人 工 智能 的 一 个 分 支 ， 主 要 的 研究 内 
容 包括 : KR 语言 的 设计 和 表达 能 力 、 相 关 推 理 问 题 的 计算 特点 ， 以 及 知识 表示 系统 的 有 
效 实现 。 

数据 集成 的 某 些 方面 也 可 以 看 做 是 一 个 知识 表示 问题 。 数 据 源 及 其 内 容 适 用 于 复杂 模 
型 表示 。 确 定数 据 源 之 间 的 关系 ， 确 定数 据 源 与 中 介 模 式 之 间 的 关系 往往 需要 严密 的 推 
理 。 由 于 以 上 原因 ， 研 究 人 员 在 很 早 的 时 候 就 已 经 在 考虑 将 知识 表示 技术 应 用 到 数据 集成 
领域 。 本 章 介 绍 知识 表示 的 原理 以 及 它们 如 何 应 用 于 数据 集成 领域 。 

12.1 节 用 一 个 例子 介绍 将 知识 表示 应 用 到 数据 集成 的 动机 。12. 2 节 介 绍 描述 逻辑 ， 
描述 逻辑 是 主要 的 知识 表示 语言 ， 已 经 应 用 于 数据 集成 。 描 述 逻 辑 通 过 一 系列 逻辑 形式 定 
义 领 域 本 体 : 描述 领域 中 的 实体 、 实 体 之 间 的 关系 ， 以 及 其 他 已 知 的 约束 ， 描 述 逻 辑 研 究 
的 关键 问题 是 在 表达 能 力 和 推理 复杂 性 之 间 做 出 权衡 。 

近年 来 ， 在 语义 Web 研究 的 推动 下 ， 知 识 表 示 已 经 有 了 很 多 研究 成 果 。 语 义 Web 是 
一 个 理想 的 愿景 ， 目 标 是 为 网 页 内 容 加 上 语义 标记 ,语义 标记 可 以 用 来 提高 搜索 的 准确 
性 ， 结 合 Web 上 的 多 源 信息 产生 新 的 服务 。12. 3 节 介 绍 了 语义 Web， 并 对 已 有 的 一 些 语 
X Web 标准 做 了 概述 ， 例 如 基于 描述 逻辑 的 资源 描述 框架 (Resource Description Frame- 
work, RDF) 和 Web 本 体 语言 (Web Ontology Language, OWL). 


12.1 数据 集成 中 的 知识 表示 举例 


首先 通过 一 个 例子 ， 展 示 数 据 集成 中 知识 表示 和 推理 的 功能 ， 在 例子 中 使 用 了 多 个 非 
正式 的 技术 术语 ， 我 们 会 在 后 面 的 部 分 进行 详细 介绍 。 

如 图 12-1 所 示 是 一 个 电影 的 本 体 ， 本 体 中 有 一 个 类 Movie 表示 所 有 电影 的 集合 ，> 
Movie 有 两 个 子 类 : Comedy (喜剧 片 ) 和 Documentary (纪录 片 )， 两 者 不 相交 。 请 
注意 ， 本 体 人 允许 重 要 的 类 ， 而 面向 对 象 数据 库 模 型 却 通常 不 允许 重 春 。 本 体 还 包括 一 组 属 
性 ， 表示 该 领域 中 两 个 对 象 之 间 的 关系 。 在 这 个 例子 中 ，Movie 有 两 个 属性 : award 和 
oscar，oscar 是 award 的 子 属性 。 

本 体 是 数据 集成 系统 的 中 介 模 式 ， 因 此 ， 我 们 用 本 体 中 的 类 和 属性 描述 数据 源 和 查 
询 。 注 意 下 面 几 个 查询 和 数据 源 的 例子 ， 观 察 推理 机 制 如 何 推断 数据 源 与 一 个 查询 相关 。 

在 下 面 简单 的 例子 中 ， 数 据 源 5S, 提供 类 comedy 的 电影 ， 通 过 LAV Hk, QO, 查询 所 


有 电影 ; 
S1(X) © Comedy(X) 
Qi(X) :- Movie(X) 
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# award 


r fsubpropertyof 
Movie “~~ 
# x = oscar 
subsetOf -一 ~ 
ao subsetOf 一 、 


edy  - - ~~» Documentary 
disjointFrom 








图 12-1 展示 了 一 个 简单 的 电影 本 体 ， 这 个 本 体 有 两 个 子 类 : Comedy 和 Documentary, 注意 Come- 
dy 和 Documentary 不 相交 。 属 性 oscar 是 award 的 一 个 子 属 性 。 通 过 这 个 本 体 ， 系 统 可 以 
推理 数据 源 是 否 与 查询 相关 。 例 如 ，5, 要 求 查 询 所 有 电影 ， 而 S 不 要 求 查 询 Comedy 类 的 电 
F. S AS, 要 求 查询 所 有 获奖 的 电影 ，5; 要 求 查询 所 有 赢得 奥斯卡 的 电影 


由 于 Comedy 是 Movie 的 子 类 ， 所 以 通过 简单 推理 就 可 知道 数据 源 S, 与 Q, 相关 ， 
同样 ， 也 可 以 推断 出 某 些 数据 源 不 需要 考虑 。 例 如 ， 假 设 数 据 源 S, 包含 纪录 片 ，0, 查询 
Bil, 则 可 以 推断 Sa 与 Q, 不 相关 。 


S2(X) © Documentary(X) 
Q2(X) :- Comedy(X) 


以 上 两 个 例子 仅 包 含 基本 的 类 以 及 它们 之 间 关 系 的 推理 ， 可 以 更 进一步 做 复杂 类 表达 
推理 。 设 数据 源 5 包含 获得 至 少 两 个 奖 的 电影 ，@s 查询 所 有 获得 一 个 奖 的 电影 : 


S3(X) © Movie(X) n (> 2 award)(X) 
Q3(X) :- Comedy(X), award(X, Y) 


推理 系统 可 以 将 查询 转换 成 表达 式 Movie n( =1 award ) ， 表 示 获 得 至 少 一 个 奖 的 电 
影 。 由 于 获得 两 个 奖 的 电影 是 至 少 获 得 一 个 奖 的 电影 的 子 集 ， 所 以 系统 可 以 推理 出 S, 与 
查询 Q, 相关 。 注 意 ， 数 量 的 限制 也 可 以 用 于 推断 类 之 间 不 相交 ， 例 如 ,假设 有 一 个 数据 
源 仅 包含 没有 获奖 的 电影 ， 可 以 用 复杂 类 表示 为 Movie n( <0 award) ， 可 以 将 这 类 数据 
WM Q, 中 排除 。 

最 后 ， 系 统 也 可 以 将 属性 间 的 关系 用 于 推理 。 例 如 ， 假 设 数据 源 $, 只 包含 获得 奥 斯 
F (Oscar) 的 喜剧 电影 : 

S4(X) © Comedy(X) n (> 1 oscar)(X) 

仍然 可 以 推断 出 S, Q; 相关 ， 因 为 Comedy 是 Movie 的 子 类 ，oscar 是 award 的 
子 属性 。 

从 上 面 的 例子 中 可 以 看 到 ， 本 体 可 以 表示 数据 源 、 中 介 模 式 和 查询 之 间 相 当 复杂 的 关 
系 。 推 理 引 擎 可 以 对 这 些 关系 进行 推理 ， 以 确定 给 定 的 查询 与 数据 源 是 否 相 关 。 下 一 节 ， 
将 详细 介绍 这 些 功 能 如 何 实现 。 


12.2 描述 逻辑 
描述 逻辑 是 一 种 定义 本 体 的 语言 族 ， 不 同 语言 的 表达 能 力 差别 很 大 。 从 推理 非常 有 


日 ”描述 逻辑 是 一 种 基于 对 象 的 知识 表示 的 形式 化 工具 。 在 众多 知识 表示 的 形式 化 方法 中 ， 描 述 逻 辑 受到 人 们 
的 特别 关注 ， 近 年 来 描述 逻辑 已 成 为 计算 机 科学 和 人 工 智 能 研究 的 一 个 重要 研究 领域 , 已 在 本 体 、 语 义 
Web、 数 据 库 、 软 件 工程 等 领域 广泛 应 用 。 一 一 译 者 注 
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效 ， 但 表达 能 力 有 限 的 语言 ， 到 表达 能 力 很 好 但 推理 能 力 不 足 或 推理 不 可 判定 的 语言 ， 各 
种 范围 的 描述 逻辑 语言 都 有 。 在 形式 化 定义 上 ， 描 述 逻 辑 是 一 阶 逻 辑 的 一 个 子 集 ， 被 限定 
为 一 元 关系 ( 称 为 概念 或 类 ) 和 二 元 关系 〈 称 为 角色 或 属性 ) 。 概 念 描述 了 领域 中 个 体 的 
集合 ， 角 色 描 述 了 个 体 之 间 的 二 元 关系 。 

描述 逻辑 知识 库 包 含 两 部 分 :1 Tbox; Abox, Tbox 是 一 个 陈述 集 ， 定 义 概 念 和 角色; 
Abox 是 一 个 断言 集 。Tbox 定义 了 两 类 概念 : 基本 概念 和 复杂 概念 ，Tbox 用 一 系列 构造 函 
数 定义 基本 概念 ， 例 如 ， 概 念 Comedy n( =1 award) 表示 喜剧 并 且 赢 得 至 少 一 个 奖 ， 使 
用 构造 函数 n (表示 连接 ) A (Sn R) (表示 数 的 限制 ) 。 

描述 逻辑 之 间 的 不 同 ， 主 要 是 因为 构造 函数 允许 定义 的 复杂 概念 和 角色 的 不 同 。 原 
则 上 ， 虽 然 某 些 构 造 函 数 的 组 合 可 以 产生 表达 能 力 上 等 价 的 语言 ， 但 是 每 选择 一 个 构造 
函数 集合 就 会 产生 不 同 的 描述 逻辑 语言 。 构 造 函 数 通 过 描述 逻辑 影响 座 辑 推理 任务 的 复 

下 文 介绍 了 一 个 相对 简单 的 描述 逻辑 <，L 可 以 推理 ， 其 语法 详细 介绍 如 下 。 


12.2.1 描述 逻辑 的 语法 


LZ 中 的 知识 库 A， 由 一 个 Tbox Ar、 以 及 一 个 Abox A4 组 成 。Az 中 的 断言 有 两 种 可 能 
的 形式 : 定义 断言 A:= C 或 包含 断言 AsC， 两 种 断言 左边 的 A 要 求 是 一 个 基本 概念 ， 
右边 的 C 可 以 是 一 个 复杂 概念 。 表 达能 力 越 强 的 描述 逻辑 允许 断言 左右 两 边 都 是 复杂 


复杂 概念 用 以 下 语法 定义 ，A 表示 一 个 基本 概念 ，C、D 表示 复杂 概念 : 
C, D—A | (基本 概念 ) 

T | (最 大 ， 所 有 个 体 的 集合 ) 

CnD| ( 合 取 ) 

=A] (4h) 

VR.C | (全 称 量词 ) 

(2nR) | ( <nR) (数量 限制 ) 


例 12.1 ”对 于 电影 本 体 5， 其 Tbox 、57 中 的 断言 为 : 


al.ltalian E Person 

a2. Comedy E Movie 

a3. Comedy E —Documentary 

a4. Movie E (< 1 director) 

as. AwardMovies := Movie n (> 1 award) 

ag. \talianHits := AwardMovie n (ydirector.ltalian) 


第 一 个 断言 a, 定义 意大利 人 是 人 的 一 个 子 集 。 断 言 a; Mla, 定义 喜剧 电影 ， 并 且说 明 
它们 与 纪录 片 不 相交 。 断 言 a, 说 明 电影 至 多 有 一 个 导演 。 断 言 os 定义 概念 AwardMov- 
ies 是 至 少 获得 一 个 奖 的 电影 。 断 言 a, 定义 了 概念 ltalianHits 获得 至 少 一 个 奖 并 且 导 演 是 
意大利 人 的 所 有 电影 。 <<< 


Abox 中 的 断言 As 声明 领域 中 的 个 体 ， 就 像 数据 库 中 的 元 组 有 数量 1 或 2，4A4 有 两 
种 类 型 断言 : 第 一 种 形 如 C(a)， 声 明 个 体 a 是 概念 C 的 一 个 实例 。 第 二 种 形式 是 
R(a，b)， 声 明 对 象 a 和 b 之 间 的 关系 是 角色 R。 常 量 b 称 为 a 在 角色 R 上 的 补 
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% (filler) 。 

Abox 和 数据 库 的 一 个 重要 区 别 是 形 如 C(a) 的 断言 可 以 包含 一 个 复杂 的 概念 C。 实 
ik, Bra Cla) 声明 个 体 a 是 一 个 扩展 的 视图 。 正 如 后 面 还 要 讨论 的 ， 从 这 个 声明 中 可 
以 得 出 多 个 结论 。 


例 12.2 对 于 例 12.1 中 的 Tbox, H Abox 64 定 义 为 : 
Comedy(LifelsBeautiful) 

director(LifelsBeautiful,Benigni) 

Italian(Benigni) 

award(LifelsBeautiful, Oscar1997) 

ItalianHits(LaStrada) 


推理 引擎 能 够 从 前 4 个 断言 中 推断 出 电影 LifelsBeautiful 是 概念 ltalianHits 的 一 个 实 
例 。 最 后 一 个 断言 只 告诉 我 们 LaStrada 是 概念 ltalianHits 的 一 个 实例 ， 但 并 没有 说 明 谁 
是 这 个 电影 的 导演 以 及 这 个 电影 获得 过 什么 奖 。 但 是 我 们 知道 它 的 导演 是 意大利 人 并 且 获 
得 过 至 少 一 个 奖 。 <<< 


12.2.2 描述 逻辑 的 语义 


描述 逻辑 知识 库 的 语义 通过 解释 (interpretations) 给 出 。 解 释 了 包含 一 个 对 象 的 非 空 
域 ，2/。 解 释 分 配 一 个 对 象 "到 4、 中 提 及 的 每 个 对 象 a, HIRES SRE: 
对 任何 可 区 分 的 个 体 对 ，a 和 5，a' 关 b”( 注意， 数据 库 也 使 用 唯一 命名 假设 )。 

解释 1 分 配 一 个 一 元 关系 C' 到 Az 中 的 每 个 概念 ,分配 一 个 0' x 0' 上 的 二 元 关系 R 到 
47 中 的 每 个 角色 RR， 概念 和 角色 的 扩展 描述 由 以 下 等 式 给 出 (其 中 # [S| 表示 一 个 集合 5 
中 的 基数 ) : 

Te, 

(CnDy=C' nD, 

CA = ON\ A), 

(WR.C)! = {d e O! | Ye: (d,e) € R! > e e C} 

(= nR} = {de O' | ġ{e | (d,e) € R!) > n} 

(< nR)! ={d € O! | t{e| (d,e) € R1} < n} 


例如 ， 前 两 行 定义 将 T 扩 展 到 @! 中 的 所 有 对 象 集 , 将 (CmD) 扩展 成 为 C 和 DD 扩展 
HZR. (YR C) 的 扩展 是 域 中 对 象 的 集合 ， 所 有 关于 角色 R 的 补充 (filler) 都 是 C 的 
A. (>nR) 的 扩展 是 域 中 一 组 对 象 集 ， 有 至 少 个 在 角色 RR 上 的 补充 对 象 。 

知识 库 中 的 断言 用 于 规定 关于 解释 的 一 组 约束 ， 满 足 这 些 约束 条 件 的 解释 称 为 模型 
(model) ， 模 型 直观 地 描述 了 领域 的 状态 ， 模 型 的 断言 允许 在 知识 库 中 给 出 。 

定义 12. 1 (包含 和 相等 ) ”知识 库 A 中 的 解释 1 是 A 的 一 个 模型 ， 如 果 : 

。 ACC! 对 每 个 Ar 中 包含 4E C， 

。 A'=C 对 每 个 Ar 中 的 声明 A: =C, 

。 del 对 每 个 A4 中 的 声明 CCa), WA 

e (a', 4') eR' 对 每 个 A4 中 的 声明 R(a, 5)。 

例 12.3 .观察 以 下 对 知识 库 8 的 解释 ， 为 了 简单 起 见 ， 假 定 1 是 8 中 常量 的 恒 等 映 身 


(identity mapping), HORES: 
{LifelsBeautiful, LaStrada, Benigni, Director1, Oscar 1997, Award1, Actor1, Actor2}. 
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注意 ，Director1、Award1、Actor1 以 及 Actor2 没有 在 5 的 Abox 中 提 及 ,但 必须 
在 0 中 提 及 以 便 获得 一 个 模型 。 考 虑 以 下 对 6, 中 概念 的 扩展 (省略 了 一 元 元 组 的 


圆 括 号 ): 
Movie’: {LifelsBeautiful, LaStrada} 
Comedy’: {LifelsBeautiful} 
Documentary’: Ø 
Person’: {Benigni, Director1} 
Italian’: {Benigni, Director1} 
award! : {(LifelsBeautiful, Oscar1997), (LaStrada, Award 1)} 
director’: {(LifelsBeautiful, Benigni), (LaStrada, Director1)} 
actor’: {(LaStrada, Actor1), (LaStrada, Actor2)} 


读者 可 以 验证 ， 所 有 的 Tbox 和 Abox 中 的 断言 都 满足 以 上 扩展 ， 因 此 了 是 5 的 一 个 模 
型 。 有 两 点 值得 注意 : 首先 ， 我 们 不 知道 谁 是 LaStrada 的 导演 以 及 获得 过 什么 奖 ， 因 此 
解释 7 只 包含 满足 Tbox 的 常量 ; 其 次 ,注意 LifelsBeautiful 属于 Comedy， 在 知识 库 中 
没有 声明 ， 但 与 知识 库 是 一 致 的 。 如 果 从 Comedy 的 扩展 中 删除 LifelsBeautiful， 我 们 仍 
然 有 6 的 模型 。 

对 了 7 一 个 小 的 改变 就 会 妨碍 它 成 为 6 的 模型 。 例 如 ， 如 果 将 LifelsBeautiful 增加 为 
Documentary 概念 的 扩展 ， 则 a, 将 不 再 满足 ; 如 果 为 任 一 个 电影 增加 另 一 个 导演 ， 则 a 
将 不 再 满足 。 <<< 


12.2.3 描述 逻辑 的 推理 
描述 逻辑 系统 主要 支持 两 种 推理 : 包含 (subsumption) 和 查询 结果 (query 


answering) o 

包含 ”给 定 两 个 概念 C 和 D， 基 本 问题 是 C 是 否 被 D 包含 。 直 观 地 ,，C 被 D 包含 ， 
如 果 在 每 个 知识 库 模型 中 ，C 的 实例 始终 确保 是 D 的 实例 。 正 如 后 面 将 要 讨论 的 ， 包 含 很 
像 查询 包含 〈 见 第 2 章 ) ， 但 推理 模式 有 所 不 同 。 包 含 的 形式 化 定义 如 下 所 示 。 

定义 12. 2 (BE) 概念 C 关于 Tbox Az 被 概念 D 包含 ， 如 果 对 于 Az 的 每 个 模型 7， 
A CED, 


$12.4 概念 Movie n( >2 award) 被 5 中 的 AwardMovies 包含 ， 但 不 会 被 Ital- 
ianHits 包含 。 概 念 Movie n( Y director. Person) 包含 概念 ItalianHits ， 因 为 在 director 
上 的 限制 较 弱 ， 在 award 上 没有 数量 的 限制 。 <<< 


正如 我 们 前 面 看 到 的 ， 包 含 可 以 用 来 推断 一 对 数据 源 之 间 的 关系 ,可 以 用 来 推断 中 
介 模 式 概念 和 数据 源 之 间 的 关系 ， 也 可 以 用 来 推断 查询 和 数据 源 之 间 的 关系 。 例 如 ， 如 
果 向 数据 集成 系统 提出 一 个 查询 以 找到 所 有 意大利 电影 ， 用 源 $ 提供 概念 ltalianHits 的 
实例 ， 则 可 以 推断 $ 与 查询 相关 。 另 一 方面 ， 如 果 查 询 要 求 至 少 获得 两 个 奖 的 意大利 电 
影 ， 如 果 $ 还 提供 每 部 电影 的 获奖 数 ， 则 只 能 使 用 $， 这 样 就 可 以 过 滤 那 些 拥 有 至 少 两 
个 奖 的 电影 。 

在 前 文 所 描述 的 逻辑 系统 C 中 ， 包 含 可 以 在 Tbox 大 小 的 多 项 式 时 间 内 完成 。 但 是 ， 稍 
微 增加 逻辑 都 将 导致 包含 难以 处 理 ， 或 者 甚至 不 可 判定 。 举 一 个 简单 的 例子 ， 如 果 人 允许 析 
取 构 造 函 数 定义 一 个 复杂 概念 ， 它 是 其 他 两 个 概念 的 并 ， 则 推理 变 成 NP 完全 问题 。 在 复 
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杂 概 念 上 添加 否定 也 会 有 同样 的 效果 。 考 虑 一 些 其 他 构造 函数 存在 的 量化 : (ARC) 表 
示 至 少 一 个 有 关 R 的 补充 必须 是 C 的 成 员 ; sameAs 表示 角色 链 P,, ，…，P, 的 补充 需要 
同样 在 角色 链 Ri ，…，R, 上 作为 补充 。 实 际 上 ， 如 果 sameAs 构造 函数 允许 是 非 功 能 性 
的 角色 (nonfunctional role) ， 则 包含 变 得 不 可 判定 。 

查询 结果 (query answering) ”第 二 类 推理 问题 与 Tbox 和 Abox 有 关 。 最 基本 的 推理 
任务 是 实例 检查 (instance checking) 。 我 们 令 C(a) 被 限定 继承 自 知识 库 A， 记 作 AF 
C(a) ， 如 果 在 4 中 的 每 个 模型 7， 有 ao“ eC, 

当 描 述 逻 辑 用 于 数据 集成 时 ， 人 们 关注 更 一 般 的 推理 问题 以 回答 对 知识 库 的 合 取 查 
询 。 问 题 形 式 化 定义 如 下 所 示 。 

定义 12.3 (描述 逻辑 知识 库 上 的 合 取 查询 ) RA 是 一 个 知识 库 , 设 0 是 一 个 合 取 
查询 ， 具 有 形式 : 

G(X) :- pi(X1), ..., pn(Xn) 
KP Pi, ot, Pp。 是 Ar 中 的 概念 或 角色 。 

A 上 对 于 0 的 查询 结果 集合 定义 为 ， 给 定 一 个 A 上 的 解释 J， 可 以 评估 针对 了 的 0， 
就 如 同 了 是 一 个 数据 库 。 用 Q(1) 表示 针对 1 求 Q 的 值 所 获得 的 元 组 集合 ，A4 中 的 一 个 元 
组 常量 i 是 针对 A 的 0 的 查询 结果 ， 如 果 对 于 每 个 A 中 的 模型 J Ate Qi). 

读者 应 该 观察 定义 12.3 和 3.2. 1 节 中 有 关 确 定 结果 定义 的 相似 性 。 


例 12.5 考虑 以 下 简单 的 查询 


Q1(X) :- Comedy(X), ItalianHits(X), award(X, Y) 

BE Abox 有 以 下 事实 : 

italianHits(LifelsBeautiful), Comedy(LifelsBeautiful) 

如 果 简 单 地 将 查询 应 用 到 Abox 中 ， 则 得 不 到 查询 结果 ， 因 为 没有 与 award 相关 的 事 
实 。 但 是 ，ltalianHits 暗示 电影 至 少 获得 一 个 奖 ， 因 此 子 查询 award(X, Y) 满足 知识 库 
中 的 任何 一 个 模型 ， 因 此 LifelsBeautiful 应 该 是 01 的 答案 。 

在 上 面 的 例子 中 ， 可 以 通过 移 除 查 询 的 子 查询 加 以 处 理 ， 这 个 子 查询 可 视 为 基于 本 体 
的 元 余 ( 在 这 个 例子 中 ，award (X,Y) 继承 自 ltalianHits (X)， 因 此 是 宛 余 的 )。 但 
Ze, 考虑 下 面 的 查询 ， 它 是 两 个 合 取 查 询 的 并 。 


Q2(X) :- Movie(X), > 1 award(X) 
Q2(X) :- Comedy(X), vdirector.ltalian(X), < 0 award(X) 


现在 ， 假 设 我 们 有 下 面 的 Abox: 

Comedy(LaFunivia), director(LaFunivia, Antonioni), Italian(Antonioni) 

即使 知道 喜剧 也 是 电影 ， 第 一 个 合 取 查 询 也 不 会 产生 任何 结果 ， 因 为 我 们 不 知道 La- 
Funivia 获得 过 什么 奖 。 第 二 个 合 取 查 询 也 不 会 有 结果 ， 但 与 第 一 个 合 取 查询 的 原因 不 同 : 
因为 Abox 不 包含 LaFunivia 获得 过 的 奖 ， 这 并 不 意味 着 电影 就 没有 获 过 奖 ! 通过 两 个 查 
询 一 起 推理 ， 可 以 推断 出 下 面 的 合 取 查询 可 以 添加 到 Q2 而 不 失 正确 性 。 

Q2(X) :- Comedy(X), ydirector.ltalian(X) 

最 后 一 个 合 取 查询 的 正确 性 根据 推理 情况 确定 。 如 果 是 意大利 喜剧 电影 ， 则 有 两 种 情 
况 : 没有 获奖 或 获得 至 少 一 个 奖 。 前 者 满足 第 二 个 合 取 查 询 ; 后 者 满足 第 一 个 合 取 查询 。 
因此 ， 对 于 这 个 合 取 查询 ,一 个 意大利 喜剧 电影 获得 过 多 少 奖 其 实 并 不 重要 。 

将 新 的 合 取 查询 应 用 到 Abox 仍然 不 会 得 到 LaFunivia 就 是 其 中 一 个 查询 结果 。 系 统 
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只 能 从 电影 只 有 一 个 导演 的 事实 来 推理 (VY director. ltalian(LaFunivia))， 得 出 LaFunivia 
是 意大利 人 。 <<< 


从 描述 逻辑 知识 库 中 找到 一 个 合 取 查询 的 所 有 问题 的 结果 是 相当 困难 的 ， 虽 然 它 可 以 
在 Abox 表述 的 描述 逻辑 大 小 的 多 项 式 时 间 内 完成 ， 但 这 需要 更 复杂 的 算法 ， 用 递归 
datalog 回 答 查询 则 更 加 复杂 。 事 实 上 ， 即 使 是 C， 递 归 查 询 结果 也 是 不 确定 的 。 


12.2.4 描述 逻辑 和 数据 库 推 理 的 比较 


在 结束 本 节 之 前 ， 值 得 仔细 比较 描述 逻辑 与 数据 库 系统 的 视图 机 制 之 间 的 关系 。 复 杂 概 念 
与 视图 都 可 以 由 基本 关系 的 构造 函数 集合 来 定义 ， 从 这 一 点 来 说 ， 它 们 是 相似 的 ; 从 关系 的 观 
点 来 看 ， 构 造 函 数 有 连接 、 选 择 、 投 影 、 合 并 以 及 某 些 形式 的 否定 。 类 似 的 包含 推理 是 查询 包 
含 ， 这 点 已 在 本 书 的 2. 3 节 中 介绍 过 ， 但 描述 逻辑 和 数据 库 系统 的 视图 机 制 存 在 着 显著 的 差异 。 

第 一 个 区 别 是 ， 用 于 描述 人 效 辑 的 构造 函数 集 允 许 定义 视图 ， 这 在 datalog 或 SQL 中 是 
不 可 能 的 ， 即 便 可 以 ， 实 现 起 来 也 很 复杂 。 人 例如， 描述 逻辑 能 说 明 一 个 概念 是 另 一 个 概念 
的 补 ， 这 在 数据 库 视图 中 是 不 可 能 出 现 的 。 可 以 使 用 否定 (negation) 定义 一 个 视图 是 另 
一 个 的 补 , 但 这 将 导致 查询 包含 立即 不 可 判定 。 类 似 地 , 一般 的 限制 ， 如 
( Y director. ltalian) ， 也 需要 在 数据 库 视 图 语言 中 加 入 否定 和 组 合 。 最 后 ， 数 量 限制 
(23 actor) fil (<2 actor) 是 很 难 用 视图 来 指定 的 ,我们 可 以 指定 最 小 基数 的 限制 ， 如 
(>=nR)， 使 用 关 谓 词 做 合 取 查 询 ， 但 表达 式 的 长 度 依赖 于 mn， 指 定 最 大 基数 的 限制 
(<n R) ， 需 要 和 否定 以 及 同样 长 的 表达 式 。 

另 一 方面 ， 合 取 查询 允许 定义 视图 ， 这 种 视图 具有 任意 的 连接 并 且 不 限定 一 元 和 二 元 
关系 。 在 描述 逻辑 中 ， 仅 有 的 连接 关系 可 能 通过 角色 路 径 来 加 以 构造 。 因 此 ， 描 述 逻 辑 主 
要 通过 限制 一 元 和 二 元 谓词 ， 通 过 限制 连接 的 执行 描述 逻辑 提供 了 一 个 视图 定义 语言 ， 使 
得 对 于 一 类 视图 包含 是 可 判定 的 〈 通 常 也 是 有 效 的 ) ， 而 在 其 他 情况 下 视图 包含 是 不 可 判 
定 的 。 

第 二 个 区 别 是 ， 在 一 个 描述 时 辑 的 Abox 中 ， 可 以 用 任何 概念 来 断言 事实 ， 不 管 它 是 
基本 概念 还 是 复杂 概念 。 对 于 一 个 复杂 概念 ， 断 言 一 个 事实 类 似 于 声明 一 个 元 组 是 在 一 个 
视图 的 实例 中 。 描 述 逻辑 能 做 关于 事实 的 推理 ， 例 如 ， 考 虑 前 文 例 子 中 的 概念 Italian- 
Hits， 在 5 中 我 们 断言 LaStrada 是 ltalianHits 的 一 个 实例 ， 系 统 可 以 推断 如 果 LaStrada 
有 一 个 导演 ， 则 导演 是 概念 Italian 的 一 个 实例 ， 尽 管 我 们 不 知道 导演 是 谁 。 同 样 ， 我 们 
也 可 以 推断 这 部 电影 获得 至 少 一 个 奖 ， 尽 管 我 们 不 知道 获得 过 什么 奖 。 与 数据 库 系 统 不 
同 ， 描 述 逻 辑 知 识 库 是 开放 世界 假设 ， 如 果 一 个 事实 在 知识 库 中 是 不 明确 的 ， 并 不 意味 着 
这 个 事实 不 成 立 。 

在 数据 库 中 ， 类 似 的 复杂 概念 实例 推理 主要 用 视图 技术 回答 查询 ， 这 点 在 2.4 节 中 已 
做 了 介绍 。 例 如 ， 一 个 关于 ltalianhits 的 视图 包含 实例 LaStrada， 使 用 视图 技术 回答 查 
询 将 得 出 这 样 的 结论 : LaStrada 包含 在 “获得 至 少 一 个 奖 的 所 有 电影 ”的 查询 结果 中 。 
如 前 所 述 ， 描 述 逻 辑 提供 了 一 个 环境 ， 它 可 以 使 用 丰富 的 构造 函数 集 ， 并 且 能 够 开发 使 用 
视图 回答 查询 的 算法 。 

最 后 一 点 区 别 是 ， 描 述 逻 辑 用 约束 语言 来 统一 模式 定义 语言 。 例 如 ， 有 些 描述 逻辑 允 
许 任意 包含 CsD 形式 的 声明 ， 其 中 C 和 D 是 复杂 概念 ， 推 理 算法 在 推理 中 会 考虑 这 些 约 
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束 条 件 ， 而 查询 包含 在 约束 条 件 方 面 却 相当 有 限 。 面 向 对 象 数据 库 (00DB) 模式 和 描述 
逻辑 也 值得 做 比较 。 虽 然 两 者 的 形式 化 模型 都 是 类 (class) 和 属性 (property) ， 但 它们 之 
间 有 着 根本 的 区 别 。 面 向 对 象 模型 关注 对 象 的 物理 性 质 ， 关 注 哪 些 属 性 与 一 个 类 的 实例 相 
关 ， 唯 一 的 推理 形式 是 类 到 它们 的 子 类 的 属性 继承 。 此 外 ,在 大 多 数 面向 对 象 数据 库 模式 
中 ， 一 个 对 象 最 多 是 一 个 类 (以 及 其 超 类 ) 的 成 员 。 描 述 逻 辑 专注 于 提供 一 种 语言 来 表达 
类 之 间 的 关系 ， 并 且 基 于 部 分 信息 做 出 推理 ， 其 结果 是 ， 对 象 可 以 属于 多 个 类 ， 描 述 逻 辑 
知识 库 很 少 指定 对 象 的 物理 属性 以 及 它们 是 如 何 存储 的 。 


12.3 语义 Web 


语义 Web 是 网 络 的 一 个 愿景 ， 它 的 目标 是 使 Web 上 的 文本 有 明确 的 标注 ， 使 它们 的 
含义 很 清楚 。 当 前 Web 主要 由 HTML 页 面 间 的 文本 和 链接 构成 ， 但 是 作为 页 面 的 主体 ， 
实体 和 关系 都 没有 明确 的 描述 ， 缺 乏 标注 阻碍 了 网 络 搜索 的 准确 性 ， 阻 碍 了 发 展 Web 更 
先进 服务 的 能 力 。 下 面 的 例子 将 说 明 这 种 标注 的 潜在 好 处 。 


例 12.6 考虑 Web 上 有 关 电 影 和 电影 评论 的 页 面 。 在 大 多 数 情 况 下 ， 对 一 个 Web 页 
面 查询 的 答案 来 自 于 Web 页 面 上 的 词 与 查询 词 的 匹配 情况 。 而 且 ， 页 面 上 词 与 查询 词 之 
间 的 接近 程度 也 是 查询 结果 页 面 排序 的 一 个 重要 影响 因素 。 假 设 一 个 Web 页 面 有 多 个 电 
影评 论 ， 按 电影 名 称 字母 顺序 排序 ， 而 词 “review” 只 在 页 面 顶部 附近 出 现 一 次 ， 则 该 页 
面 不 太 可 能 出 现在 查询 “review Zanzibar” 的 结果 中 ， 因 为 “review” 和 “Zanzibar” 在 页 
面 上 相互 出 现 的 距离 较 远 ， 搜 索引 擎 不 知道 页 面 中 包含 着 被 评论 的 电影 。 

假设 除了 页 面 上 的 文本 外 ， 我 们 还 为 每 个 电影 评论 添加 标注 ， 用 于 说 明 这 是 一 个 电 
影评 论 ， 加 上 电影 标题 、 评 论 者 的 名 称 ， 其 至 可 能 是 评论 的 情感 倾向 ， 这 样 就 可 以 在 搜 
索引 擎 中 利用 这 些 标注 添加 特定 的 搜索 功能 ， 以 便 得 到 更 准确 的 影评 搜索 结果 。 如 果 
Web 页 面 上 加 标注 的 做 法 很 普遍 ， 那 么 搜索 引擎 甚至 可 以 支持 这 样 的 查询 :“ 找 到 所 有 
关于 电影 zanzibar 的 评论 ”， 搜 索引 擎 会 在 Web 上 搜索 多 个 页 面相 关 的 部 分 。 此 外 ， 还 
可 以 将 评论 信息 与 电影 有 关 的 其 他 数据 进行 关联 ， 如 播放 时 间 、 预 告 片 以 及 有 关 演 员 的 


信息 。 <<< 


语义 Web 显然 是 一 个 非常 宏伟 的 目标 ， 这 一 目标 已 导致 相当 多 的 批评 。 语 义 Web 所 
面临 的 挑战 主要 有 两 个 : 第 一 个 挑战 是 需要 投入 额外 的 工作 来 创建 这 些 标注 ， 而 不 可 能 立 
即 产生 回报 ; 第 二 个 挑战 是 关于 语义 异 质 性 的 问题 ， 需 要 很 多 Web 用 户 创建 结构 化 的 数 
据 表示 。 语 义 Web 是 一 个 很 长 远 的 发 展 计 划 ， 如 果 语 义 Web 的 这 些 要 求 能 全 部 满足 ， 则 
对 于 网 络 有 较 大 的 促进 ， 可 以 促进 Web 上 的 结构 化 标记 ， 这 些 发 展 在 某 些 领域 和 企业 中 
会 产生 较 大 影响 。 语 义 Web 的 核心 是 资源 描述 框架 (RDF) ， 以 及 与 之 相关 的 模式 语言 : 
RDF 模式 (RDFS) 和 Web 本 体 语言 (OWL)。 这 些 标准 建立 在 知识 表示 语言 的 原则 上 ， 
并 将 它们 应 用 于 Web 上 下 文 ， 其 中 知识 是 由 许多 Web 参与 者 用 分 散 的 方式 创作 的 。 以 下 
几 节 将 描述 这 些 标 准 的 核心 思想 。 


12.3.1 资源 描述 框架 
资源 描述 框架 (RDF) 是 一 种 用 于 描述 Web 上 资源 的 语言 。 最 初 ，RDF 用 于 为 资 
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源 添 加 元 数据 ， 以 方便 这 些 资源 可 以 在 网 上 找到 ， 例 如 文档 。 通 过 RDF， 可 以 描述 一 个 
文档 的 作者 、 文 档 的 最 后 修改 时 间 、 文 档 的 主题 等 。 而 且 ，RDF 已 被 推广 到 描述 不 在 
Web 上 但 被 Web 引用 的 对 象 ， 如 人 和 产品 。RDF 用 RDFS 和 OWL 来 描述 RDF 文件 中 模 
式 级 元 素 (schema-level element) 对 象 以 及 对 象 之 间 的 关系 。 在 前 面 几 节 提 到 的 术语 中 ， 
RDF 可 以 视 为 Abox， 而 RDFS Al OWL FJ IX Tbox, $X E, OWL 是 基于 描述 逻 
辑 的 。 

从 概念 上 讲 ，RDF 包含 关于 资源 的 陈述 ， 每 个 陈述 为 资源 的 一 个 属性 提供 一 个 值 ， 每 
个 陈述 采用 三 元 组 的 形式 〈 主 语 ， 谓 语 ， 宾 语 )。 正 如 下 文 即将 看 到 的 ， 资 源 的 名 称 可 以 
很 长 ， 使 得 标记 更 为 充分 。 通 过 常规 方式 定义 限定 名 ( qname)， 限 定名 是 一 个 短 代 码 ， 
作为 所 描述 资源 的 前 级 ， 在 下 面 的 例子 中 ，ex: 是 “http:Vwww. example. org/” 的 qname, 
exterms: $Æ “http://www. example. org/terms” 的 qname。 因 此 ，ex: moviel 是 “http:W 
www. example. org/ moviel ”的 简写 。 


例 12.7 以 下 三 元 组 用 以 说 明 “http :Ywww. example. org/movies/moviel” ”标识 电影 
“Life Is Beautifal"”。 对 电影 评论 的 主题 (subject ) 用 “http:Vwww. example. org/ 
reviewl. html” 标 识 ， 电 影 用 “ex: moviel1 ”表示 ， 三 元 组 表示 所 评论 的 数据 。 


ex:moviel exterms:title “Life Is Beautiful" 
ex:reviewl.html exterms:movieReviewed ex:moviel 
ex:reviewl.htm] exterms:written-date "August 15, 2008" <<< 


因此 ，RDF 是 一 种 表达 一 元 和 二 元 关系 的 语言 。RDF 陈述 和 Abox 断言 之 间 的 对 应 关 
系 是 显然 的 。RDF 可 以 (而 且 经 常 是 ) 用 作 图 模型 。 图 12-2 展示 了 例 12. 7 中 三 元 组 的 图 
表示 。RDF/XML 规范 说 明 如 何 将 一 系列 RDF 转化 为 XML， 并且 用 一 些 快捷 方式 使 其 更 
简洁 。 





http://www.example.org/terms/movieReviewed 






http://www.example.org/terms/titie 
Life Is Beautiful 


图 12-2 RDF 三 元 组 的 图 表示 


例 12.8 下 面 的 XML 语句 与 例 12.7 中 的 3 个 RDF 语句 具有 相同 的 主题 ，ex: reviewl. html, 
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需要 注意 的 是 ，RDF/XML 允许 ex: reviewl. html 的 所 有 属性 扔 套 在 一 个 XML 元 素 中 ， 其 
{Hi about 是 主语 (第 5 ~9 行 )， 而 不 是 将 主语 重复 3 次 。 


1: <?xml version="1.0"2> 

2. <rdf:RDF xmins:rdf="http://www.w3.0rg/1999/02/22-rdf-syntax-nsi#" 

3: xmins:dc="http://purl.org/dc/elements/1.1/" 

4 xmIns:exterms="http://www.example.org/terms/"> 

5 <rdf:Description rdf:about="http://www.example.org/reviewl.html"> 

6 <exterms:written-date>August 15, 2008</exterms:creation-date> 

Pe <exterms:movieReviewed rdf:resource="http://www.example.org/moviel/> 

8 <exterms:writtenBy rdf:resource="http://www.example.org/staff1D/23440> 
9 </rdf:Description> 

10. </rdf:RDF> <<< 


我 们 不 讨论 RDF 的 所 有 细节 ， 下 面 介绍 一 些 RDF 的 重要 特点 ， 并 介绍 它 如 何 用 于 支 
持 大 规模 的 知识 共享 。 


统一 资源 标识 符 

RDF 中 的 陈述 包括 两 种 类 型 的 常量 : 统一 资源 标识 符 (URI) 和 文字 。RDF 陈述 的 
主语 和 谓语 必须 表示 为 URI (除非 是 空白 节点 ， 下 文 将 讨论 这 个 ) ， 宾 语 可 以 是 URI 或 
文字 。 

URI 是 对 网 络 上 资源 的 引用 ， 因 此 为 实体 引用 提供 了 一 个 更 具 全 球 性 的 机 制 。 例 如 ， 
对 一 个 人 的 引用 ， 在 传统 知识 库 中 ， 可 能 用 一 个 字符 串 表 示 她 的 名 字 ， 如 MarySmith ， 但 
是 ， 字 符 串 或 内 部 唯一 标识 符 只 表示 相应 数据 库 或 知识 库 中 的 含义 。 在 RDF 中 ， 可 以 使 
用 “www. example. com/staffID/5544” 引 用 这 个 人 ,任何 其 他 人 都 可 以 用 这 个 URI 引用 同 
一 个 人 人。 同样 ， 也 可 以 用 这 种 方法 引用 谓词 ， 如 “www. example. com/exterms/writtenBy” , 
BY “www. example. com/exvalues/Blue” 。 

RDF 使 用 URI 机 制 是 其 关键 点 之 一 ， 使 得 它 适 用 于 数据 集成 和 数据 共享 。 除 了 为 实体 
提供 一 个 更 具 全 球 性 的 引用 机 制 外 ， 它 也 鼓励 数据 生产 者 使 用 统一 的 术语 ， 方 便 数 据 重 
用 。 需 要 重点 强调 的 是 ， 并 不 是 强迫 数据 生产 者 服从 用 URI 引用 实体 这 一 标准 ， 而 是 鼓励 
他 们 这 样 做 。 


RDF 中 的 文字 


RDF 没有 自己 的 内 置 数 据 类 型 。 相 反 ， 它 使 用 一 种 机 制 来 说 明文 字 是 由 哪 种 数据 类 型 
描述 ， 这 些 数据 类 型 也 同样 用 URI 来 引用 ， 从 而 形成 一 个 开放 式 的 类 型 系统 。 例 如 ， 以 下 
陈述 说 明 两 名 员工 的 年 龄 和 出 生日 期 。 第 一 条 语句 说 明年 龄 是 整 型 数据 类 型 ， 第 二 条 语句 
说 明 出 生日 期 是 日 期 数据 类 型 。 


exstaff:23440 exterms:age "42"^^xsd:integer 
exstaff:54322 exterms:birthdate "1980-05-06"*°xsd:date 


空白 对 象 


正如 上 文 所 述 ，RDF 可 以 表示 对 象 之 间 的 二 元 关系 ， 然 而 ， 二 元 关系 并 不 足以 表达 对 
象 之 间 的 关系 。 注 意 前 面 表示 Mary 地 址 的 例子 ， 地 址 是 一 个 结构 化 的 对 象 ， 它 包含 多 个 
域 ， 如 街道 、 城 市 、 国 家 和 邮政 编码 ， 将 这 些 都 表示 为 Mary 的 属性 显然 是 不 合适 的 。 
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RDF 允许 空白 节点 ， 这 种 节点 没有 具体 的 标识 ， 如 图 12-3 所 示 ， 用 一 个 空白 节点 表示 
Mary 的 地 址 对 象 ， 这 个 空白 节点 有 特定 的 地 址 属性 。 





exterms:address 















exterms:street exterms:state 





exterms:city 


\ 


90267 123 Main St. Manhattan Beach ， California 





exterms:zip 





图 12-3 RDF 图 中 的 空白 节点 号 


空白 节点 没有 唯一 的 四 ， 可 以 为 它们 分 配 一 个 RDF 文档 作为 也， 可 以 多 次 引用 它们 
(例如 ， 地 址 代表 一 个 订单 的 账单 和 送 货 地 址 )， 但 跨 文 档 的 ID 是 无 意义 的 。 因 此 ， 如 果 
合并 两 个 RDF 图 ， 则 需要 优先 确保 它们 的 空白 节点 ID 是 不 相交 的 。RDF 也 有 表示 包 、 列 
表 (lists) 和 选择 (alternatives) 的 结构 。 


物化 


正如 第 14 章 中 将 要 讨论 的 ， 知 道 数据 在 Web 上 的 出 处 很 重要 ， 出 处 包括 数据 从 哪里 
来 以 及 什么 时 间 来 的 〈 见 第 14 章 ) RDF 提供 了 一 种 机 制 来 物化 陈述 ， 从 而 使 陈述 的 事 
实 与 之 相关 。 具 体 来 说 ， 就 是 将 RDF 三 元 组 作为 一 种 资源 引用 。 

例 12.9 以 下 RDF 三 元 组 用 来 物化 moviel 标题 的 陈述 。 第 一 条 语句 给 出 了 陈述 tri- 
plel2345 物化 的 名 称 ， 并 用 接 下 来 的 3 个 语句 指定 其 属性 。 


moviedb:triple12345 rdf:type rdf:Statement. 
moviedb:triplel2345 rdf:subject ex:moviel. 
moviedb:triplel2345 rdf:predicate exterms:title. 
moviedb:triplel2345 rdf:object “Life Is Beautiful" 


用 物化 方法 可 以 断言 更 多 的 关于 陈述 的 事实 。 下 面 我 们 说 明 谁 和 什么 时 候 将 三 元 组 输 
入 电影 数据 库 。 


© 2011 年 8 月 发 布 的 RDFS1. 1 推荐 标准 ， 在 概念 和 抽象 语法 上 进行 了 修改 ， 主 要 包括 在 语言 代码 方面 显 式 地 
使 用 BCP47 (Best Current Practice) ; 使 用 Unicode 编码 的 IRI 替代 基于 ASCH 码 的 URI; 使 用 Skolem IRI 而 不 
是 未 命名 的 空白 节点 ， 空 白 节点 拥有 本 地 标识 符 以 区 别 全 局 IRI 和 字符 ， 当 RDF 图 合并 时 可 以 保持 空白 节 
点 之 间 相 区 分 ; 从 RDF 概念 中 去 除 可 扩展 标记 语言 (XML) 类 型 。 除 此 之 外 ， 大 部 分 修改 都 基于 规范 清除 
和 使 用 语言 的 语义 与 实际 流 (pragmatic flow) 。 一 一 译 者 注 
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moviedb:triplel2345 exterms:entered-by ex:staffID/23340 
moviedb:triplel2345 exterms:entered-date "2007-07-07""*xsd:date << 


12.3.2 RDF 模式 


RDF 模式 (RDF Schema, RDFS) 提供 结构 来 定义 类 、 类 的 层次 结构 、 类 中 资源 的 成 
员 。RDFS 还 允许 声明 属性 在 域 和 范围 上 的 限制 。RDFS 早 于 Web 本 体 语言 (OWL) 提 
iH, OWL 只 在 其 自己 内 部 使 用 ， 本 文 涉及 的 较 少 。 需要 特别 注意 的 是 ，RDF 不 强迫 使 用 
任何 与 其 结构 相关 的 语义 ，RDF 只 是 一 种 语言 ， 能 部 署 在 RDF 系统 上 以 达到 使 用 语义 的 
目标 。 

RDFS 的 结构 由 http://www. w3. org/2000/01/rdf- schema# 上 的 RDF 词汇 表 来 描述 ， 其 
限定 名 是 rdfs:。RDFS 最 基本 的 结构 是 rdfs :type， 用 来 表示 一 个 类 中 资源 的 成 员 。 以 下 三 
元 组 语句 指出 电影 是 一 个 类 ， 这 个 类 由 类 型 rdfs :class 来 说 明 。 

ex:Movie rdfs:type rdfs:class 

使 用 相同 的 结构 说 明 类 的 实例 ， 这 里 ，moviel 被 断言 为 一 个 电影 : 

ex:moviel rdfs:type ex:Movie 

以 上 两 个 语句 说 明 RDFS 有 非常 强大 的 功能 : 一 个 资源 是 一 个 类 ， 它 也 可 以 是 另 一 个 
类 的 成 员 ! 因此 ， 可 以 有 以 下 几 种 情形 。 


例 12. 10 以 下 三 元 组 用 来 说 明 Corolla 是 一 个 类 ， 它 有 一 个 实例 carll 。 然 而 ，Corolla 
也 是 类 CarModels 的 成 员 。 


ex:Corolla rdfs:type rdfs:Class 
ex:carll rdfs:type ex:Corolla 
ex:CarModels rdfs:type rdfs:Class 
ex:Corolla rdfs:type ex:CarModels 


需要 特别 注意 的 是 上 面 的 陈述 和 情景 之 间 的 区 别 。 在 情景 中 可 以 声明 Corolla 是 Car- 
Models 的 一 个 子 类 ， 为 模式 元 素 和 数据 元 素 之 间 做 出 了 明确 的 区 分 。 汽 车 的 每 个 个 体 是 数 
据 元 素 ， 所 有 Corollas 的 集合 以 及 汽车 模型 都 是 模式 元 素 。 但 是 ， 如 果 我 们 要 描述 Corollas 
的 某 个 方面 ， 比 如 去 年 出 售 了 多 少 辆 汽车 ? 这 是 Corollas 作为 类 的 一 个 属性 而 不 是 个 体 实 
例 。 因 此 ，RDF 提供 了 更 强大 的 建 模 灵 活性 。 <<< 


RDFS 中 的 子 类 可 以 用 rdfs :subclassOf 概念 来 描述 ， 如 下 所 示 : 


ex:Comedy rdfs:subclassOf ex:Movie 

注意 ， 多 个 陈述 可 以 解释 为 合 取 ， 因 此 ， 如 果 增 加 : 

ex:Comedy rdfs:subclassOf ex:LaughProvokingEvents 
则 Comedy 被 声明 为 Movie 和 LanghProvkingEvents 的 交集 。 

最 后 ，RDFS 中 的 属性 可 以 用 下 面 的 结构 来 描述 。 在 下 面 的 陈述 中 ， 定 义 actor 为 一 个 
属性 ， 它 有 一 个 子 属性 leadActor, actor 的 范围 是 Person， 其 域 是 Movie。 


exterms:actor rdfs:type rdfs:Property 
exterms:leadActor rdfs:subPropertyOf exterms:actor 
exterms:actor rdfs:range exterms:Person 
exterms:actor rdfs:domain exterms:Movie 


12.3.3 Web 本 体 语 言 


RDFS 提供 了 与 面向 对 象 数据 库 模式 非常 相似 的 概念 。Web 本 体 语言 (OWL) WR 
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感 来 自 于 描述 逻辑 支持 的 推理 ， 用 来 支持 语义 Web 的 推理 ,与 12.1 节 中 例子 思想 
一 样 。 

正如 12. 2 节 所 述 的 ， 描 述 逻 辑 是 一 个 语言 族 ， 每 个 都 有 一 些 构造 函数 (因此 具有 不 
同 的 计算 性 能 ) 。0WL 的 基础 是 需要 选择 一 个 特定 的 描述 逻辑 ， 这 导致 OWL 有 些 随意 。 
取而代之 的 是 ，0WL 标准 提出 了 3 个 版 本 : 1) OWL-Lite， 可 以 涵盖 描述 逻辑 一 个 很 小 的 
子 集 , 但 推理 非常 有 效 ; 2) 0WL- DL， 包 括 描述 逻辑 中 丰富 的 构造 函数 ,但 其 计算 复杂 
度 非常 高 ; 3) OWL-Ful， 人 允许 物化 陈述 ， 而 且 人 允许 构造 OWL-DL。 下 面 介 绍 OWL 中 模式 
级 的 构成 。 

OWL-Lite 与 描述 逻辑 不 同 ，0WEL 语言 不 做 唯一 命名 假设 。 实 际 上 ，Web 上 的 
实体 可 能 有 多 个 名 称 ， 因 此 ，0WL-Lite 可 以 说 明 两 个 实体 是 相同 的 (sameAs) 或 者 
它们 是 不 同 的 (differentFrom) 。0WL-Lite 还 包括 AllDifferent， 以 说 明 一 组 对 象 是 两 
两 不 同 。 

即使 存在 大 量 的 个 体 ，OWL- Lite 的 推理 和 问答 都 是 非常 有 效 的 。OWL- Lite 中 的 主要 
构成 包括 : 

。 前 面 描 述 的 RDF 模式 中 的 所 有 结构 。 

e 12. 2 节 中 描述 的 ZL 语言 中 的 一 些 构造 ， 包 括 类 (n) 中 的 合 取 操作 符 、 全 称 量词 

(YR.C)， 以 及 数字 的 限制 ， 数 字 只 允许 使 用 0 或 1。 

e 属性 (RC) 的 存在 量词 , 例如 ， 通 过 这 个 构造 函数 可 以 描述 电影 集合 ， 这 个 

电影 集中 至 少 有 一 个 演员 是 女性 。 

o 有 些 概念 用 于 说 明 属 性 上 的 约束 : TransitiveProperty, SymmetricProperty, Function- 

alProperty, InverseFunctionalProperty o 

OWL-DL OWL-DL 在 OWL- Lite 的 基础 上 还 允许 以 下 结构 : 

© 任意 基数 限制 。 

。 任意 概念 描述 的 并 、 补 、 交 。 

© 不 相交 : 说 明 两 个 类 4 和 B 相互 不 相交 。 

© oneOf: 描述 一 个 概念 是 由 多 个 个 体 的 枚 举 组 成 。 例 如 ，WeekDay 可 定义 为 : 
one of( Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Sat- 
urday) 。 
hasValue: 用 来 描述 一 个 概念 必须 有 一 个 特定 的 值 作为 角色 的 补充 ， 例 如 ，( na- 
tionality Vietnam) 用 来 描述 将 “越南 ”作为 国籍 (nationality) 身份 (角色) 
的 补充 。 需 注意 的 是 ， 角 色 无 须 采用 函数 的 形式 。 

oe ETB, OWL 是 对 Web 上 下 文 描述 逻辑 的 一 种 改编 。 它 采用 URI 让 更 多 的 全 球 用 
户 引 用 其 术语 。 和 描述 逻辑 一 样 ，OWEL 基于 开放 世界 假设 ， 适 用 于 Web EFX. RJA, 
与 描述 逻辑 不 同 ，OWL 不 做 唯一 命名 假设 ， 因 为 在 Web 上 可 能 有 很 多 方式 指向 同一 个 
实体 。 


12.3.4 RDF 查询 : SPARQL 语言 


SparQL 语言 用 来 查询 RDF 三 元 组 的 存储 ，SparQL 借用 其 他 数据 库 查 询 语言 的 思想 ， 
提出 了 SparQL 自己 的 RDF 查询 语言 。SparQL 基于 三 元 组 表达 式 中 的 变量 与 常量 的 模式 匹 
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配 ， 查 询 结果 是 RDF 图 的 元 组 集合 。 
例 12.11 考虑 以 下 4 个 RDF 三 元 组 : 


exstaff:23440 exterms:name exstaff:personl 
exstaff:23440 exterms:city "New York" 
exstaff:23444 exterms:name exstaff:person2 
exstaff:23444 exterms:city "San Francisco" 
以 下 查询 找 出 住 在 纽约 的 人 ， 注 意 变 量 ? d 需要 匹配 2 个 三 元 组 。 
SELECT ?d ?person 
WHERE 
{?d exterms:city "New York") . 
?d exterms:name ?person} 


查询 的 结果 为 


2d ? person 


exstaff; 23440 exstaff; person] 


使 用 CONSTRUCT， 有 可 能 创建 一 个 RDF 图 作为 输出 。 以 下 用 exterms; city 谓词 输出 
图 ， 重 命名 为 exterms: livesIn, 


CONSTRUCT {?d exterms:livesIn ?city } 
WHERE 
{ ?d exterms:city ?city } 





exstaff:23440 exterms:livesIn "New York" 
exstaff:23444 exterms:livesIn “San Francisco" <<< 


参考 文献 注释 


将 知识 表示 技术 应 用 到 数据 集成 研究 领域 从 很 早 就 已 经 开始 了 。Catarci 和 Lenzerini 
[112] 首 次 论述 了 描述 逻辑 如 何 为 数据 源 建立 模型 并 推理 它们 之 间 的 关系 。 有 些 系 统 使 用 
描述 逻辑 描述 数据 源 和 中 间 模 式 后 ， 通 过 AI 规划 技术 进行 推理 [37，38，361 ] 。Informa- 
tion Manifold System 将 描述 逻辑 与 局 部 视图 结合 ， 文 献 [380，60，107 ] 研究 了 在 描述 逻辑 
中 使 用 视图 回答 查询 的 复杂 性 。 

描述 逻辑 一 书 [ 1] 为 描述 逻辑 的 理论 、 系 统 以 及 其 应 用 提供 了 一 个 全 面 的 指南 。 文 献 
[192 ] 简 短 分 析 了 不 同 逻 辑 的 复杂 性 。Borgida 在 文献 [93 ] 中 分 析 了 描述 逻辑 在 数据 管理 方 
面 的 相关 内 容 。 

多 项 工作 试图 将 描述 逻辑 与 datalog 结合 。 在 [193 ] 中 ， 作 者 探讨 了 将 一 元 谓词 添加 到 
datalog 程序 中 ， 其 中 一 元 谓词 的 类 在 描述 逻辑 中 定义 。CARIN 语言 [377] 将 一 元 谓词 和 二 
元 谓词 结合 到 datalog 规则 中 ， 这 两 者 都 是 在 描述 逻辑 的 Tbox 中 定义 。 文 献 [377] 的 作者 
展示 了 通过 严格 地 将 描述 逻辑 和 datalog 结合 ， 其 推理 是 可 判定 的 。 其 他 几 个 系统 将 描述 
逻辑 与 数据 集成 结合 ， 并 将 描述 逻辑 与 对 等 数据 管理 系统 结合 ( peer- data management sys- 
tem) ， 如 文献 [11，255，367 ] 。 

语义 Web 的 愿景 最 早 在 文献 [71] 中 提出 ， 从 那 以 后 ， 每 年 有 一 个 年 度 会 议 致 力 于 推 
动 语 义 Web 的 进步 。Noy 在 [466 | 中 综述 了 基于 本 体 的 语义 集成 方法 ， 由 于 本 体 比 模式 更 
具有 表达 力 ， 所 以 有 多 个 研究 社团 使 用 本 体 对 齐 (ontology alignment) 进行 模式 映射 ， 这 
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方面 的 工作 包括 [183，440，464 ] ， 学 术 界 每 年 举办 一 次 年 度 竞赛 来 比较 本 体 对 齐 算 法 。 
关联 数据 [88 ] 是 语义 Web 愿景 的 其 中 一 个 方面 ， 其 核心 思想 是 将 数据 集 通过 共享 的 URI 
标识 符 关 联 起 来 ， 使 关联 数据 间 的 关系 能 够 通过 编写 程序 达到 跨 多 个 数据 源 的 遍历 ， 关 联 
数据 研究 现状 可 以 在 http ;/linkeddata. org 上 查阅 。 
有 关 RDF、RDFS、SPARQL 和 OWL 标准 的 详细 规范 可 以 在 万 维 网 联盟 的 网 站 上 找到 : 
www. w3. org, 与 语义 Web 相关 的 还 有 多 个 其 他 方面 的 标准 如 : OWL2 ( 较 新 版 本 的 
OWL) 、 规 则 交换 格式 (用 于 说 明 datalog 风格 和 商业 规则 ) 。http :Yswoogle. umbc. edu 提 
供 了 一 个 搜索 引擎 ， 收 集 了 大 量 的 Web 上 的 本 体 。 
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Principles of Data Integration 


不 确定 性 数据 集成 





数据 库 系 统 通常 只 针对 确定 的 数据 进行 建 模 ， 即 如 果 数 据 库 中 有 一 个 元 组 ， 则 它 必 然 
是 现实 世界 中 真实 存在 的 。 在 许多 情况 下 ， 与 周围 世界 相关 的 知识 都 是 不 确定 的 ， 我 们 试 
图 为 不 确定 性 建 模 并 将 其 加 入 数据 库 ， 以 方便 查询 。 例 如 ， 考 虑 下 面 几 种 情况 : 
。 我 们 正在 收集 有 关 盗 窃 案 的 目击 者 证 据 ， 目 击 者 不 记得 小 偷 是 金发 还 是 棕 发 。 
。 我 们 正在 从 传感器 记录 温度 的 测量 值 ， 传 感 器 的 精度 有 一 定 程 度 的 误差 边界 ,或 
者 因为 传感器 的 电池 电量 低 ， 测 量 可 能 是 完全 错误 的 。 
。 我 们 正在 集成 跨 多 个 站 点 的 数据 ， 查 询 的 答案 需要 连接 ， 连 接 包括 一 个 字符 串 近 
似 匹 配 条 件 ， 这 个 近似 匹配 可 能 会 产生 一 定量 的 误差 结果 。 
不 确定 性 数据 管理 的 主要 任务 是 为 数据 库 中 的 不 确定 性 表示 开发 模型 、 确 定 针 对 此 类 数 
据 库 的 查询 应 答 语义 ， 开 发 高 效 的 查询 计算 技术 。 数 据 集成 的 不 确定 性 表现 在 多 个 方面 。 


数据 


首先 ， 数 据 可 能 是 从 非 结 构 化 数据 中 抽取 的 〈 如 第 9 章 所 述 ) ， 抽 取 的 准确 性 可 能 是 
不 确定 的 。 此 外 ， 集 成 多 个 数据 源 的 数据 时 ， 由 于 其 中 的 一 些 数据 不 准确 或 已 过 时 ， 所 以 
导致 各 数据 源 的 数据 可 能 不 一 致 。 即 使 在 企业 环境 中 ， 对 于 客户 数据 的 这 种 不 一 致 也 是 常 
见 的 ， 如 性 别 和 收入 水 平 不 一 致 ， 也 可 能 是 脏 数 据 或 丢失 数据 ， 即 使 这 些 客 户 的 实际 交易 
数据 是 精确 的 。 


模式 映射 


如 第 5 章 所 述 ， 模 式 映 射 可 能 使 用 半自动 化 技术 。 如 果 我 们 正在 处 理 一 个 非常 大 的 数 
据 源 ， 例 如 万 维 网 ， 我 们 可 能 没有 足够 的 资源 验证 这 些 映射 。 在 男 一 种 情况 下 ， 我 们 可 能 
不 知道 确切 的 模式 映射 ， 因 为 数据 的 含义 可 能 是 模糊 的 。 因 此 ， 在 数据 集成 应 用 中 模式 映 
射 的 不 确定 性 很 常见 。 


查询 


在 某 些 数据 集成 环境 中 ， 不 能 想当然 地 认为 用 户 熟 悉 模式 ， 或 者 想当然 地 认为 他 们 有 
能 力 进行 结构 化 查询 。 因 此 ， 系 统 可 能 需要 向 用 户 提供 关键 词 查询 的 搜索 接口 ， 正 如 我 们 
将 在 第 16 章 中 讨论 的 ， 系 统 需要 将 关键 词 查询 转换 为 结构 化 的 形式 ， 使 得 这 些 关键 词 可 
以 重新 定位 到 数据 源 。 转 换 过 程 中 可 能 产生 多 个 候选 的 结构 化 查询 ， 因 此 就 会 产生 不 确定 
性 : 哪些 是 用 户 查 询 的 目标 。 


中 介 模 式 
当 系统 集 成 领域 非常 广泛 时 ， 可 能 产生 中 介 模 式 自身 的 不 确定 性 。 下 面 是 一 个 简单 的 例 
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子 ， 如 果 中 介 模 式 试图 建 模 计算 机 科学 的 所 有 学 科 ， 那 么 准确 解释 各 个 学 科 和 学 科 之 间 的 重 
释 将 是 不 确定 的 。 例 如 ， 数 据 库 领域 和 人 工 智能 领域 之 间 可 能 有 重合 ， 量 化 这 种 重 琶 很 困 
难 。 通 常情 况 下 ， 当 我 们 试图 建 模 较 广泛 的 领域 时 ， 领 域 中 的 术语 可 能 变 得 比较 模糊 。 

数据 集成 系统 管理 不 确定 性 时 需要 为 不 确定 的 数据 建 模 ， 为 不 确定 的 模式 映射 建 模 以 
及 为 不 确定 的 查询 建 模 。 系 统 应 当 尽 可 能 重视 其 操纵 的 每 一 个 对 象 ， 并 应 当 增 量 式 地 产生 
带 有 排序 (Rank) 的 答案 ， 而 不 是 找到 所 有 确定 的 答案 。 

许多 挑战 是 正在 研究 的 课题 ， 本 章 介绍 了 许多 基本 概念 ， 尤 其 是 与 数据 集成 相关 的 概 
念 。13. 1 节 介 绍 与 数据 相关 的 不 确定 性 建 模 。13. 2 节 介 绍 不 确定 性 模式 映射 。13. 3 节 简 
短 地 讨论 不 确定 性 和 数据 溯源 之 间 的 密切 联系 。 有 关 不 确定 性 的 更 多 信息 ， 如 涉及 文本 关 
键 词 搜索 查询 以 及 合并 排序 结果 的 通用 技术 ， 可 以 在 第 16 章 找到 。 最 后 ， 在 本 章 结 尾 的 
参考 文献 注解 中 ， 为 读者 提供 了 数据 库 中 有 关 概 率 模型 和 如 何 用 概率 计算 半自动 地 输出 模 
式 匹配 技术 的 更 多 信息 。 


13. 1 不 确定 性 表示 


通常 ， 不 确定 数据 管理 用 术语 可 能 世界 (possible world) 来 表示 : 与 传统 数据 库 中 仅 
表示 确定 性 数据 实例 不 同 ， 不 确定 性 的 数据 库 表示 一 组 可 能 的 实例 或 可 能 的 世界 。 每 一 个 
这 样 的 实例 都 具有 成 为 正确 结果 的 可 能 性 。 

不 确定 性 可 能 有 多 种 建 模 方式 ， 具 体 视 情况 而 定 。 

。 也 许 最 简单 的 形式 是 知道 有 几 种 可 能 的 世界 ， 但 没有 任何 办 法 知道 各 自 的 相对 可 

能 性 。 这 里 ， 经 常用 条 件 变 量 为 每 个 属性 表示 可 能 的 值 集 〈( 即 属性 4 Aa, a, 
aa ) ， 或 者 将 可 能 的 值 作为 一 个 元 组 存在 的 布尔 条 件 〈 即 元 组 上 存在 ， 如 果 条 件 c， 
是 真实 的 ) 。 

。 在 有 些 情 况 下 ， 如 同 Web 上 的 搜索 引擎 ， 我 们 可 能 为 每 个 数据 项 标记 一 个 分 值 
(score) ， 这 个 分 值 可 能 是 由 人 为 调节 的 组 合 因素 得 出 的 ， 因 此 如 此 组 合计 算得 出 
的 分 值 带 有 很 大 的 不 确定 性 。 

o 在 对 元 组 和 元 组 组 合 进行 查询 操作 时 ， 人 们 希望 有 清晰 的 规则 计算 组 合 分 值 。 由 此 引 
和 了 更 为 形式 化 的 计算 和 组 合 不 确定 性 测量 的 模型 。 一 个 自然 的 模型 是 概率 ， 它 有 界 
R (区间 [0,1])， 并且 可 以 清楚 地 描述 不 确定 性 ， 即 使 在 否定 (补充 ) 条 件 下 。 

本 章 的 重点 将 介绍 这 3 种 情况 的 最 后 一 种 ， 即 为 不 确定 数据 使 用 概率 模型 。 


不 确定 性 的 类 型 


不 确定 数据 模型 通常 考虑 两 种 不 确定 性 。 第 一 种 不 确定 性 是 元 组 级 不 确定 性 (tuple- 
level uncertainty) ， 在 这 种 不 确定 性 中 ， 我 们 不 知道 数据 实例 是 否 包含 元 组 ， 我 们 认为 元 组 
的 存在 是 一 个 随机 变量 ， 如 果 元 组 在 实例 中 存在 ， 则 这 个 随机 变量 的 值 是 真 的 ， 如 果 元 组 
在 实例 中 不 存在 ， 则 这 个 随机 变量 的 值 是 假 的 。 另 一 个 不 确定 性 是 属性 级 不 确定 性 
(attribute-level uncertainty) ， 属 性 值 本 身 是 一 个 随机 变量 ， 其 值 域 是 属于 该 元 组 的 值 集 。 

为 了 规范 化 ， 经 常 将 属性 级 不 确定 性 转换 成 元 组 级 不 确定 性 ， 如 下 例 所 示 。 对 于 元 组 
t 中 每 个 可 能 的 属性 4 的 值 a, 、a,、a3， 我 们 为 其 相应 地 创建 一 个 副本 元 组 1、t,、43。 然 
后 为 每 个 元 组 i 的 副本 指定 一 个 概率 值 ， 这 个 概率 值 为 属性 A 中 存在 a; 的 可 能 性 。 最 后 ， 
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PRE ts tos ty BR 


例 13.1 设 在 盗窃 案 证 人 数据 库 中 ,证 人 有 60% W AREAS TAMA, 证 人 可 能 是 一 
个 无 辜 的 旁观 者 ， 亲 眼目 睹 盗贼 是 金发 。 我 们 可 以 将 此 证 据 表 示 为 一 个 元 组 ( thieft， 
Blondhair) ， 其 元 组 级 的 概率 为 0.6。 

另外 ,证 人 可 能 直接 看 到 小 偷 在 偷 东西 ， 但 可 能 由 于 灯光 原因 不 能 确定 小 偷 的 头发 颜 
色 (证 人 有 50% 的 自信 ， 小 偷 的 头发 是 棕色 ，20% 可 能 是 黑色 ，30% 可 能 是 金色 ) 。 我 们 
可 以 用 元 组 级 的 不 确定 性 给 出 一 个 元 组 (thieft, ，X) 。 随 机 变量 苞 给 定 棕色 的 概率 为 0.5， 
黑色 的 概率 为 0.2， 金 色 的 概率 为 0. 3。 

或 者 可 以 将 最 后 一 种 情况 转变 为 一 组 互 斥 的 元 组 级 的 概率 集合 。 创 建 的 元 组 t = 
(thieft,, Brown) 的 概率 为 0.5, t = (thieft,, Black) 的 概率 为 0.2, t = (thieft,, 
Blond) 的 概率 为 0.3， 并 限定 ts h HR. <<< 


最 后 这 个 例子 带 来 了 一 个 自然 的 问题 ， 即 如 何 限定 元 组 之 间 是 互 斥 的 以 及 元 组 如 何 表 
示 可 能 世界 所 带 来 的 类 型 限制 。 从 这 点 出 发 ， 才 有 了 上 述 的 转换 过 程 〈 将 属性 级 不 确定 性 
转换 成 元 组 级 不 确定 性 ) ， 并 且 假 定 本 文 讨论 的 是 元 组 级 不 确定 性 。 


13. 1.1 概率 数据 表示 


在 数据 库 领 域 中 ， 不 确定 性 数据 表示 的 起 点 是 条 件 表 (ec-table) 。 在 条 件 表 中 ， 每 个 
元 组 用 一 个 布尔 条 件 变量 集合 加 以 注释 。 如 果 条 件 为 真 ， 则 元 组 在 表 中 出 现 ; 如 果 条 件 为 
假 ， 则 元 组 在 表 中 不 出 现 。 条 件 表 启 示 我 们 如 何 来 表示 可 能 的 世界 ， 即 一 个 实例 集结 合 了 
对 变量 的 不 同 的 评估 值 ， 与 元 组 相 结合 的 各 种 条 件 限制 允许 在 实例 中 出 现 。 


例 13.2 设 Alice 与 Bob 去 度假 ， 他 们 有 两 个 可 选 的 目的 地 ， 塔 希 提 岛 〈Tahiti ) 和 乌 兰 
巴 托 (Ulaanbaatar) ， 第 三 个 旅行 者 Candace 将 要 去 乌 兰 巴 托 。 我 们 可 以 将 这 个 度假 建 模 为 : 










Tahiti 
Tahiti 
Ulaanbaatar 
Ulaanbaatar 
Ulaanbaatar 


Alice 
Bob 
Alice 
Bob 




















Candace 


其 中 x 表示 他 们 共同 选择 塔 希 提 岛 的 条 件 ， 从 上 表 中 可 以 看 到 ， 只 有 两 种 可 能 性 。 <<< 


通过 人 允许 条 件 表 中 的 变量 为 随机 变量 ， 并 为 随机 变量 指定 一 个 概率 分 布 和 它们 的 可 能 
值 ， 我 们 可 以 将 条 件 表 概 念 归 纳 为 概率 条 件 表 (pc-table) 。 


例 13.3 给 定 上 述 数据 实例 ， 我 们 可 能 观察 到 爱丽 丝 的 皮肤 已 经 被 晒 黑 ， 并 且 知 道 
现在 是 冬天 ， 因 此 ，Alice 和 Bob 去 塔 希 提 岛 不 去 乌 兰 巴 托 的 可 能 性 为 80% ， 我 们 为 x 指 
定 概率 0. 8。 <<< 


概率 条 件 表 是 一 个 很 好 的 抽象 概念 ， 能 很 好 地 捕捉 到 概率 信息 ， 虽 然 它 不 能 准确 地 


[347 | 


[348 | 


256 第 二 部 分 扩展 数据 表示 集成 





捕捉 到 变量 的 概率 分 布 。 一 种 可 能 是 使 用 机 器 学 习 ， 如 图 模型 (马尔 可 夫 网 络 、 贝 叶 斯 
网 络 ， 以 及 与 它们 相关 的 方法 )， 可 以 捕捉 到 随机 变量 之 间 的 相关 结构 。 在 这 方面 已 有 
了 一 些 显著 的 工作 ， 通 过 建立 数据 库 查 询 模型 和 数据 库 系统 ， 基 于 这 种 模型 返回 概率 
结果 。 

有 时 候 我 们 会 用 更 简单 的 模型 ， 这 种 模型 虽然 大 大 地 限制 了 可 以 捕获 到 的 可 能 世界 
集 ， 但 却 使 得 查询 结果 更 易于 处 理 ， 我 们 简要 介绍 两 个 经 常 使 用 的 模型 。 


元 组 独立 模型 


对 于 一 组 可 能 世界 最 简单 的 概率 表示 ， 用 一 种 可 区 分 的 布尔 变量 在 概率 条 件 表 中 来 标 
注 每 个 元 组 。 然 后 分 别 给 每 个 变量 指定 一 个 概率 : 这 个 概率 与 事件 相关 ， 元 组 是 实例 的 成 
员 。 可 以 看 到 ， 由 于 每 个 元 组 具有 其 自己 的 变量 ， 所 以 元 组 之 间 不 存在 相关 性 。 因 此 ， 通 
过 枚 举 所 有 可 能 元 组 的 子 集 ， 从 每 个 实例 以 及 每 个 实例 间 的 关系 来 计算 概率 并 作为 成 员 元 
组 的 概率 ， 可 以 发 现 可 能 的 模型 集 。 由 此 产生 的 模型 自然 被 称 为 元 组 独立 模型 。 

然而 ， 遗 憾 的 是 ， 元 组 独立 模型 太 简单 了 ， 以 至 于 不 能 表示 相关 性 或 互 斥 性 。 在 上 文 
中 旅行 者 的 例子 中 ， 没 有 办 法 表示 Alice 只 能 去 塔 希 提 岛 或 乌 兰 巴 托 之 一 ， 无 法 用 独立 的 
概率 表示 去 两 个 地 方 中 的 一 个 ， 也 没有 办 法 表示 Alice 和 Bob 会 一 起 去 。 下 面 的 模型 可 以 
表示 互 斥 ， 但 仍然 无 法 表达 相关 性 。 


块 独立 不 相交 (BLOCK-INDEPENDENT-DISJOINT, BID) 模型 


这 里 ,我 们 将 表 划 分 成 块 (block) 集合 ， 每 一 个 块 与 其 他 块 都 是 独立 的 ， 表 中 的 任 
何 一 个 实例 都 必须 有 一 个 来 自 于 块 的 元 组 ， 每 一 个 块 中 的 元 组 都 是 不 相交 的 〈 即 ， 互 斥 
的 ) 概率 事件 。 可 以 认为 这 是 为 每 一 个 块 b 指定 了 一 个 随机 变量 x,， 并 且 为 块 中 每 个 元 组 
ty, ty, t, “FARA x, =1, x,=2, x, =3，… 加 以 标注 。 在 BID 表 中 ， 由 于 每 个 随机 变 
量 在 每 个 块 中 仅 出 现 一 次 ， 所 以 通常 用 相关 事件 的 概率 替换 条 件 x, =y。 


例 13.4 我 们 可 以 用 下 面 的 BID 表 来 表示 不 同 的 选择 ， 其 中 横 长 线 用 以 分 开 不 同 的 块 。 





























旅行 者 目的 地 概率 
Alice Tahiti T 0.8 
Alice Ulaanbaatar 0.2 
Bob Tahiti 0.8 
Bob — Ulaanbaatar 0.2 
Candace Ulaanbaatar 1.0 


然而 ， 仍 然 不 能 限制 Alice 和 Bob 去 同一 个 目的 地 。 图 模型 为 表示 元 组 间 的 相关 性 提 
供 了 强 有 力 的 形式 化 表示 。 参 考 文献 注解 中 有 简要 的 讨论 。 <<< 


13.1.2 从 不 确定 性 到 概率 


概率 模型 表示 不 确定 性 有 许多 好 处 ,但 是 ， 一 个 很 自然 的 问题 是 ， 如 何 将 数据 、 映 
[349] 射 、 查 询 以 及 模式 的 置信 度 级 别 转 换 为 实际 概率 值 。 例 如 ， 字 符 串 编辑 距离 值 转换 为 概率 
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需要 一 个 模型 ， 这 个 模型 需要 表征 印刷 错误 或 字符 串 修 改 。 这 种 模型 可 能 高 度 依赖 于 特定 
的 数据 和 应 用 ， 因 此 对 于 我 们 不 可 用 。 

概率 来 自 于 具体 的 应 用 ， 往 往 没 有 形式 化 证 明 过 。 在 最 好 的 情况 下 ， 可 以 有 概率 分 
布 、 错 误 率 等 相关 的 概率 信息 。 在 有 些 情况 下 ,我 们 可 能 会 得 到 数据 值 如 何 相关 的 
模型 。 

然而 ， 在 其 他 许多 情况 下 ， 我 们 只 有 主观 的 置信 度 级 别 ， 这 种 置信 和 度 被 转换 到 [0，1] 
区 间 ， 并 解释 为 概率 。 如 在 网 络 搜索 中 ， 最 终 的 问题 是 ， 系 统 是 否 为 高 可 信 度 的 内 容 指定 
了 一 个 较 高 的 分 值 ， 而 不 是 我 们 是 否 有 坚实 的 数学 基础 以 产生 基本 的 分 值 。 本 节 主 要 讨论 
与 数据 相关 的 不 确定 性 表示 。 下 面 ， 我 们 将 介绍 数据 集成 的 另 一 个 关键 部 分 (模式 映射 ) 
的 不 确定 性 问题 。 


13.2 不 确定 模式 映射 建 模 


模式 映射 描述 了 中 介 模 式 与 数据 源 模式 之 间 的 映射 关系 。 本 节 介 绍 的 概率 映射 
(p-mapping) ， 旨 在 描述 映射 的 不 确定 性 。 本 节 介绍 概率 映射 的 可 能 语义 以 及 对 查询 计算 复 
杂 度 的 影响 。 

为 了 简单 起 见 ， 这 里 只 考虑 最 简单 的 模式 映射 ， 称 为 属性 映射 〈attribute correspon- 
dences) ， 具 体 而 言 ， 映 射 是 由 属性 映射 组 成 的 ， 属 性 映射 的 形式 是 cj = (s, t), HP s, 
是 模式 S 中 的 源 属性 ，4 是 模式 7 中 的 目标 属性 。 直 觉 上 ，6j 说 明 s, Mle, 之 间 的 关系 。 映 
射 是 指 两 个 属性 彼此 相等 或 者 它们 有 一 个 变换 函数 (例如 ,温度 数据 从 摄氏 到 华氏 的 变 
换 ) 。 本 文 所 考虑 的 简单 模式 映射 定义 如 下 。 

定义 13. 1 (模式 映射 ) 设 S 和 了 是 关系 模式 。 一 个 关系 映射 M 是 一 个 三 元 组 (3$， 
T，HM) ， 其 中 8 是 $ 中 的 关系 ，7 是 了 中 的 关系 , m 是 S$ 和 7T 之 间 的 属性 映射 集合 ，m 中 
的 每 个 源 属性 和 目标 属性 最 多 有 一 个 映射 。 

模式 映射 于 是 5 和 了 之 间 的 关系 映射 集 ，5 或 7 中 的 每 个 关系 最 多 出 现 一 次 。 


例 13.5 数据 源 5 描述 了 一 个 人 的 电子 邮件 地 址 (email-addr) 、 现 住址 (current-ad- 
dr)、 永 久 地 址 ( permanent- addr) ， 中 介 模 式 7 描述 一 个 人 的 名 字 (name) 、 电 子 邮 件 
(email) 、 邮 和 寄 地 址 (mailing- addr) 、 家 庭 地 址 (home- addr) 和 办 公 地 址 ( office- addr) 
(这 两 个 模式 有 一 个 单一 的 关系 ): 


S=(pname, email-addr, current-addr, permanent-addr) 
T=(name, email, mailing-addr, home-addr, office-addr) 


下 面 是 S 和 了 之 间 可 能 的 关系 映射 。 
{ 


(pname, name), 

(email-addr, email), 
(current-addr, mailing-addr), 
(permanent-addr, home-addr) 


} <<< 
13.2.1 概率 映射 
如 前 所 述 ， 我 们 可 能 无 法 确定 两 个 模式 之 间 的 映射 。 如 例 13. 5 ， 一 个 半自动 的 模式 映 
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射 工具 可 能 在 $ 和 了 之 间 产 生 3 个 可 能 的 映射 为 每 个 指定 一 个 概率 ， 如 图 13-2 所 示 ，3 
个 映射 所 有 的 pname 都 映射 到 name, 5 和 7 中 其 他 属性 都 不 相同 ， 例如，m 映射 cur- 
rent-addr 到 mailing-addr, m, 映射 permanent-addr 到 mailing-addr。 由 于 映射 的 正 
确 性 是 不 确定 的 ， 所 以 我 们 需要 考虑 查询 结果 中 所 有 这 些 映 射 。 

现在 可 以 给 出 概率 映射 的 概念 。 直 观 地 ， 一 个 概率 映射 描述 了 源 模 式 和 目标 模式 之 间 


可 能 的 模式 映射 集合 的 概率 分 布 。 
定义 13. 2 (概率 映射 ) 设 S 和 了 是 关系 模式 。 概率 映射 〈p-mapping) pM 是 一 个 三 
元 组 (S, T, m), EP, SES, TeT, 是 集合 |(m, Pr(m)), ©, (m; 


Pr(m,)) |, 1444: 
e 对 于 ie[1, I], m, 是 S$S 和 TT 之 间 的 映射 ， 对 每 一 个 i, jell, 1], iAj>m,Am,, 


e Pr(m)e[0,1] E > Pr(m) =1。 


模式 概率 映射 ， pM 是 S 和 7T 了 之 间 的 关系 概率 映射 的 集合 ， 其 中 5 和 了 中 的 每 一 个 关 
系 至 多 在 一 个 概率 映射 中 出 现 。 


13. 2.2 概率 映射 的 语义 


给 定 一 个 概率 映射 pM， 有 (ED) 两 种 方法 来 解释 模式 映射 的 不 确定 性 : 

1) pM 中 的 单个 映射 是 正确 的 ， 并 且 它 适用 于 源 S 中 的 所 有 数据 ， 或 者 

2) pM 中 的 多 个 映射 是 部 分 正确 的 ， 并 且 每 个 适合 S 中 元 组 的 不 同 子 集 。 而 且 我 们 不 
知道 对 于 特定 的 元 组 哪个 映射 是 正确 的 。 

在 上 面 的 例子 中 ， 这 两 种 解释 都 同样 有 效 ， 虽 然 其 中 的 一 个 映射 可 能 对 所 有 数据 是 
正确 的 ， 但 它 也 可 能 是 真 的 ， 有 些 人 可 能 会 选择 他 们 的 当前 地 址 作为 其 邮件 地 址 ， 而 另 
一 些 人 会 使 用 永久 地 址 作为 其 邮件 地 址 。 在 后 一 种 情况 下 ， 正 确 的 映射 依赖 于 特定 的 
元 组 。 

我 们 用 两 种 不 同 的 解释 ( 表 语 义 (by-table) 和 元 组 语义 (by-tuple)) 定义 查询 结果 ， 
这 两 个 语义 有 不 同 的 计算 性 能 。 注 意 ， 需 要 应 用 来 指定 哪个 是 其 合适 的 语义 。 

表 语 义 和 元 组 语义 是 确定 性 结果 的 自然 延伸 〈 参 见 3.2.1 节 )。 我 们 首先 简要 回顾 一 
下 确定 结果 。 映 射 定义 了 实例 S 和 实例 了 之 间 的 关系 ， 它 们 的 映射 是 一 致 的 。 

定义 13. 3 (一 致 的 目标 实例 ) HM=(S, T, m) 是 一 个 关系 映射 ,Ds 是 $ 的 一 个 
实例 。 

了 的 一 个 实例 D7 与 Ds 和 用 一 致 ， 如果 对 于 每 个 元 组 t, e Ds， 存 在 一 个 元 组 i, e D;， 
使 得 每 个 属性 映射 (a,，a,) em, t 中 的 a, 值 与 t, PH a, 值 一 样 。 


例 13.6 图 13-1a 是 源 的 一 个 实例 ， 基 于 映射 m 与 图 13-1b 一 致 ， 并 基于 映射 m, 与 
图 13-1e 一 致 。 

对 于 一 个 关系 映射 M 和 一 个 源 实例 D;:， 有 无 限 个 目标 实例 与 D; 和 MM 一致， 我 们 用 
Tarw(Ds) 表示 所 有 这 样 的 目标 实例 集 。 查 询 0 的 结果 集 是 Tary (Ds) 中 所 有 结果 实例 的 
交集 。 
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| pname | email-addr | ”current-addr 
| Alice alice@ Mountain View Sunnyvale 
| Bob bob@ Sunnyvale Sunnyvale 
a) 
name | email | mailing-addr | home-addr | office-addr | 
Alice | alice@ | Mountain View | Sunnyvale office 
Bob | bob@ Sunnyvale Sunnyvale office | 
b) 
name | email | mailing-addr | home-addr | office-addr 
Alice | alice@ | Sunnyvale | Mountain View office 
Bob | bob@ Sunnyvale Sunnyvale office 














c) 


图 13-1 a) 是 一 个 源 模式 的 实例 ，b) Alc) 是 目标 模式 的 实例 。 
a) 在 不 同 模式 映射 下 , b) Alc) 一 致 。 <<< 
定义 13.4 (确定 结果 ) 设 必 =(S, T, m) 是 一 个 关系 映射 , 设 0Q 是 了 上 的 一 个 查 
i), Ds 是 S 上 的 一 个 实例 。 
对 于 Ds, M, 元 组 it 是 0 的 一 个 确定 结果 ， 如 果 对 于 每 个 实例 D, e Tary(Ds), 
teQ(D;). 


13.2.3 iFM 


下 面 用 表 语 义 概括 概率 环境 中 的 确定 结果 。 直 观 地 ， 概 率 映射 pM 描述 了 可 能 世界 集 
合 ， 在 每 一 个 这 样 的 可 能 世界 中 ，pM 中 不 同 的 映射 应 用 于 源 ， 可 能 世界 通过 pM 中 的 每 
个 映射 的 概率 附加 权重 。 据 此 ， 我 们 定义 与 源 实 例 一 致 的 目标 实例 。 

定义 13.5 ( 表 语 义 一 致 性 实例 ) 设 pM=(3$，7，m) 是 一 个 概率 映射 ，Ds 是 $ 上 
的 一 个 实例 。 

了 中 的 实例 D, 5 D; Fe pM 是 表 语 义 一 致 的 ， 如 果 存 在 一 个 映射 mem, 48 D; # D; 
满足 mms 


例 13.7 在 图 13-1 F, 图 13-1b、c 是 关于 图 13-2 中 概率 映射 的 与 a) 表 语 义 一 致 的 。 
可 能 的 映射 概率 


"T 


{(pname, name), (email-addr, email), 05 
(current-addr, mailing-addr), (permanent-addr, home-addr)} 


{(pname, name), (email-addr, email), 0.4 
(permanent-addr, mailing-addr), (current-addr, home-addr)} : 
{(pname, name), (email-addr, mailing-addr), o 1 
(current-addr, home-addr)} i 


























a) 
图 13-2 一 个 概率 映射 由 3 个 可 选 的 关系 映射 组 成 <<< 


给 定 一 个 源 实 例 D;， 以 及 一 个 可 能 的 映射 me m， 可 以 有 无 限 数量 的 目标 实例 与 D。 
Fm 相 一 致 。 我 们 用 Tar, (D,) 表示 所 有 实例 集 。 

在 概率 环境 下 ， 我 们 为 每 个 结果 指定 概率 ， 考 虑 在 隔离 情况 (isolation) 下 与 每 个 可 
能 的 映射 有 关 的 确定 结果 。 结 果 1 的 概率 是 映射 概率 的 总 和 ， 其 中 1 被 认为 是 一 个 确定 结 
果 。 我 们 定义 表 语 义 结果 如 下 。 
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定义 13.6 ( 表 语 义 结果 ) 设 pM=(S,，7T,，m) 是 一 个 概率 映射 ， 设 g 是 一 个 了 上 
的 查询 ， 设 Ds XS 上 的 一 个 实例 。 

hi 是 一 个 元 组 , 设 m(1) 是 m 的 子 集 ， 使 得 对 每 个 mem(t)， 和 对 每 个 
Pre Tar, (Ds), tedQ( Days 

p= 2》 Prim), #Rp>0, MAA (t, p) 是 与 Ds 和 pM 相关 的 @ 的 一 个 表 语 


mem(t) 


义 结 果 。 


例 13.8 考虑 一 个 查询 ， 用 它 来 检索 所 有 在 目标 关系 中 的 邮寄 地 址 。 图 13-3a 显示 了 
基于 表 语 义 的 查询 结果 ， 对 于 元 组 1= (“Sunnyvale’ ) A m(t) = |mi，ma| ， 因 此 概率 元 






































组 ( ‘Sunnyvale’, 0.9) 是 一 个 结果 。 = 
TA Ciba HE) 概率 元 组 (邮寄 地 址 ) ”| 概率 | 
(‘Sunnyvale’) 0.9 (‘Sunnyvale’) 0.94 
(‘Mountain View’) 0.5 (‘Mountain View’) 0.5 
(‘alice@’) 0.1 (‘alice@’) 0.1 
(‘bob@’) 0.1 (‘bob@’) 0.1 
a) REN b) 元 组 语义 


图 13-3 通过 表 语义 和 元 组 语义 找到 所 有 邮寄 地 址 


13. 2.4 元 组 语义 


虽然 表 语 义 为 m 中 每 个 映射 的 选择 做 了 可 能 世界 建 模 ， 但 表 语 义 需 要 考虑 每 个 元 组 可 能 选 
择 了 不 同 的 映射 。 因 此 ， 一 个 可 能 世界 是 将 m 种 可 能 的 映射 分 配 到 D, 中 的 每 一 个 元 组 。 

从 形式 上 ， 表 元 组 与 表 语 义 定 义 的 主要 区 别 是 : 一 个 映射 序列 定义 了 一 个 目标 实例 ， 
该 映射 序列 为 六 中 的 每 一 个 源 元 组 指定 一 个 m 中 的 映射 。 不 失 一 般 性 ， 我 们 假设 有 Ds 
中 元 组 的 排序 。 

定义 13.7 (元 组 语义 一 致 性 实例 ) Rd ATD, PH TAR, HpM=(S, T, m) 
是 一 个 概率 映射 ， GD, 是 一 个 S 的 实例 ， 它 有 4d 个 元 组 。 

了 中 的 实例 Di 5 D; 和 pM 是 元 组 语义 一 致 的 ， 如 果 有 一 个 序列 《ml ，…，m*)， 使 
得 对 于 每 一 个 1<i<d， 有 

emem, 且 

© D, 的 第 i 个 元 组 it;， 存在 一 个 目标 元 组 i eD, 使 得 对 每 个 属性 响应 (a,, a,)e 

m, t 中 的 a, 值 与 1' 中 的 a, 值 相同 。 

给 定 一 个 映射 序列 seqg= (m, =, mi), RMA Tar (Ds) 表示 所 有 与 Ds 和 seq 相 

一 致 的 目标 实例 集 。 注 意 ， 如 果 D, 与 D; Film 是 表 语 义 一 致 的 ， 则 D; FD, 也 是 元 组 语 
义 一 致 的 且 Ds 中 的 映射 序列 的 映射 是 m。 
MTC Tea FE 2 seq = (m, =, mf) 看 做 是 一 个 独立 的 事件 ， 其 概率 是 


Pr( seq) = IT Pr(m') 。 如 果 pM 中 有 /个 映射 则 有 个 长 度 为 4 的 序列 ， 其 概率 等 于 1， 


我 们 用 seq, (pM) 表示 pM 中 产生 的 长 度 为 d 的 映射 序列 集合 
定义 13. 8 (元 组 语义 结果 ) 设 pM=(S, T, m) 是 一 个 概率 映射 设 @ 是 了 上 的 
一 个 查询 ，Ds 是 $ 中 的 一 个 有 d 个 元 组 的 实例 。 
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设 1 是 一 个 元 组 ，seq(1) 是 seqs(pM) 的 子 集 ， 则 对 于 每 个 seq e seq(1t) 和 每 个 Dr E 
Tar,.,(Ds) ， teQ(D;), 
p= Ý Pr(seq), 如果 p>0， 我 们 称 (t, p) 是 关于 Ds 和 pM 的 0 的 一 个 元 组 
seq e seq(t) 
语义 答案 。 
例 13.9 继续 来 看 例 13.8， 图 13-3b 展示 了 基于 元 组 语义 的 查询 回答 ， 注 意 表 语义 
结果 中 的 元 组 上 =( ‘Sunnyvale’ ) 与 元 组 语义 结果 是 不 同 的 。 <<< 


评注 13. 1 (计算 复杂 度 ) 表 语 义 有 一 个 迷人 的 特性 : 它 能 及 时 找 出 一 个 选择 - 投 
影 -连接 (select-project-join) 查询 中 所 有 的 确定 回答 ， 其 数据 和 映射 是 多 项 式 时 间 级 的 。 
元 组 语义 在 计算 性 能 上 无 法 达到 表 语 义 的 水 平 。 通 常 ， 基 于 元 组 语义 找到 所 有 确定 结果 的 
计算 复杂 度 是 与 数据 大 小 相关 的 #P 完全 级 的 。 


13. 3 不 确定 性 和 数据 溯源 


最 后 ， 在 数据 集成 中 ， 一 个 元 组 的 分 值 〈 分 值 用 概率 或 其 他 方法 来 度量 ) 应 取决 于 多 
种 因素 : 查询 正确 性 的 概率 、 个 体 模式 映射 正确 性 的 概率 、 源 数据 正确 性 的 概率 、 实 际 总 
体 的 样本 空间 〈 可 能 世界 的 集合 ) 等 。 

概率 和 数据 集成 领域 的 许多 研究 人 员 已 经 注意 到 ， 查 询 结果 的 溯源 〈 例 如 ， 查 询 结果 
如 何 产生 以 及 从 何 处 得 到 ) 与 查询 结果 的 分 值 之 间 有 一 定 关系 。 当 前 已 提出 了 多 种 技术 用 
于 计算 与 数据 溯源 相关 的 查询 结果 ， 以 及 计算 概率 超过 这 些 结果 的 查询 结果 。 还 提出 了 一 
些 其 他 技术 研究 以 下 方面 的 分 值 : 单个 数据 源 、 模 式 映射 、 查 询 、 给 查询 结果 一 个 正确 的 
排名 ， 以 及 解释 数据 源 和 查询 结果 之 间 的 关系 数据 来 源 信息 。 在 这 个 丰富 的 研究 领域 中 ， 
这 方面 的 研究 工作 还 在 继续 ， 我 们 将 在 第 14 章 讨论 数据 溯源 ， 在 第 16 章 详 细 介绍 数据 淹 
源 如 何 用 于 计算 得 到 分 值 。 


参考 文献 注释 


有 关 概 率 数据 库 综述 的 文献 是 [535 ] ， 我 们 所 讨论 的 概率 数据 模型 从 这 个 文献 中 得 到 
很 大 启示 。 有 些 基础 工作 包括 不 完全 信息 表示 、 条 件 表 等 在 文献 [313 ] 中 论述 ， 早 期 概率 
数据 库 方面 的 工作 在 文献 [236，364 ] 中 讨论 ， 概 率 条 件 表 在 文献 [271 ] 中 论述 。 当 前 ， 各 
种 各 样 的 概率 数据 管理 研究 成 果 在 数据 库 领 域 中 出 现 ， 而 不 是 在 数据 集成 文献 中 ， 多 个 著 
名 的 系统 包括 : Trio[ 67] 、MystiQ [95，160，496] 、MaybMS [32] PrDB [518 ] 和 Bayes- 
Store[ 561 ] 。 一 种 流行 的 计算 近似 结果 的 方法 是 使 用 Monte Carlo 模拟 ， 在 MystiQ 中 首次 使 
用 ,研究 细节 在 MCDB 330 ] 和 文献 [569 ] 中 详细 论述 。 应 用 这 些 系统 的 目的 主要 是 支持 概 
率 计算 ， 如 从 文本 和 Web 页 面 上 抽取 信息 [560] 。 

管理 和 挖掘 不 确定 性 数据 很 早已 经 成 为 一 个 研究 课题 一些 最 近 的 研究 进展 在 
Aggrawal 编 辑 的 文献 集中 [17]。 

概率 模式 映射 中 的 表 语 义 和 元 组 语义 在 文献 [189 | 中 做 了 介绍 ， 论 文 还 建立 了 关于 在 
概率 上 映射 中 计算 查询 的 复杂 度 结果 ， 目 前 已 提出 了 多 种 模型 以 获得 属性 间 映 射 的 不 确定 
性 。Gal 等 人 [239] 提 出 ,保持 两 个 模式 间 的 top- 映射 ， 每 个 有 0 ~1 之 间 概 率 为 真 。 文 
献 [242 ] 中 提出 ， 为 了 匹配 每 个 源 属性 和 目标 属性 对 ， 为 其 指定 一 个 概率 。 这 方面 更 全 面 
的 论述 可 以 在 [241] 中 找到 。 
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Magnani 和 Montesi 在 文献 [411] 中 经 验 性 地 表明 top-k 模式 映射 可 以 用 于 增加 数据 集 
成 中 的 召回 率 ，Gal 在 [238 ] 中 描述 了 通过 结合 不 同 匹 配器 产生 的 匹配 结果 如 何 产生 top-k 
模式 匹配 。Nottelmann 和 Straccia[ 462 ] 提出 生成 概率 模式 匹配 ， 以 便 捕获 每 个 匹配 步 又 中 
的 不 确定 性 。 

He 和 Chang[ 293 ] 考 虑 了 Web 数据 源 中 产生 间接 模式 的 问题 ， 他 们 的 方法 是 创建 一 个 
间接 模式 ， 这 个 间接 模式 统计 源 模式 的 最 大 一 致 性 。 为 了 做 到 这 一 点 ,他们 假定 源 模式 通 
过 可 生成 模型 创建 ， 应 用 于 某 些 中 介 模 式 ， 它 可 以 看 做 是 一 个 概率 中 介 模 式 。Magnani 等 
人 [412] 提 出 ， 基 于 关系 间 (如 导师 关系 与 教师 关系 是 相交 关系 ,但 与 学 生 关系 是 不 相 
交 ) 概率 联系 ， 通 过 抽样 数据 实例 的 重 释 部分， 产生 可 选择 的 中 介 模 式 集 。 

Chiticariu 等 人 [135 ] 研 究 了 对 于 一 个 存在 的 数据 源 集合 ， 产 生 多 个 中 介 模 式 。 他 们 考 
虑 了 多 表 数 据 源 以 及 利用 交互 技术 辅助 生成 中 介 模 式 。 

Lu 等 人 [399] 描 述 了 一 种 系统 ， 在 该 系统 中 ， 多 个 数据 拥有 者 可 以 共享 数据 ， 每 个 都 
使 用 自己 的 术语 ， 数 据 被 插入 一 个 宽 表 (wide table) ， 该 表 有 一 列 用 于 指定 每 个 数据 提供 
者 的 每 个 属性 。 系 统 自动 确定 多 个 数据 提供 者 的 标签 对 之 间 的 相似 性 ， 通 过 检查 数据 本 身 
并 用 概率 表示 数据 间 的 相似 性 。 用 户 可 以 使 用 任何 他 们 想 要 的 模式 查询 ， 系 统 使 用 概率 查 
询 计算 来 获取 与 查询 中 使 用 的 模式 不 符 的 数据 。 
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本 书 的 大 部 分 内 容 主 要 讲述 如 何 从 众多 数据 源 中 将 数据 提取 出 来 ， 并 将 这 些 数据 以 一 
定 的 形式 集成 到 一 个 同 构 的 视图 中 一 一 通过 这 样 的 处 理 ， 来 自 不 同 数据 源 的 数据 被 集成 在 
一 起 而 不 区 分 其 来 源 。 然 而 对 于 一 个 集成 模式 中 的 数据 ， 有 些 时 候 我 们 还 是 希望 能 够 知道 
数据 是 从 哪里 来 的 以 及 是 怎么 来 的 。 

这 就 促成 了 一 个 研究 课题 ， 叫 做 数据 溯源 (data provenance), ， 有 时 也 称 为 数据 世系 
(data lineage) 或 数据 血统 (data predigree) 。 数 据 溯 源 描 述 了 数据 产生 和 演化 的 过 程 。 
从 广义 上 来 说 ， 淹 源 可 能 包括 很 多 因素 ， 例 如 ， 原 始 数据 的 生成 者 、 生 成 时 间 和 使 用 的 
设备 。 然 而 ， 通 常 在 数据 库 领 域 中 ， 数 据 溯源 表示 从 源 数 据 库 的 原始 元 组 如 何 得 到 现在 
的 这 些 数 据 。 针 对 这 个 问题 ， 我 们 可 以 使 用 单独 的 应 用 程序 来 保留 一 些 附加 信息 ， 例 
如 ， 原 始 的 元 组 如 何 生成 、 生 成 的 时 间 、 生 成 者 等 。 


例 14.1 考虑 这 样 的 情形 ， 当 一 个 用 于 科学 研究 的 数据 仓库 从 多 个 数据 源 S, S 
导 人 数据 时 ,如果 有 数据 冲突 ， 那么 该 数据 仓库 的 使 用 者 或 管理 员 希 望 知道 这 些 冲 突 
数据 来 自 哪 个 数据 源 、 使 用 哪些 映射 对 数据 进行 了 转换 。 如 果 能 够 知道 这 些 数据 的 来 
源 ， 那 么 找到 相 比 于 其 他 数据 源 更 具 权 威 性 的 一 个 数据 源 就 能 够 更 容易 地 解决 冲突 问 
题 。 同 样 ， 如 果 知 道 一 个 模式 映射 是 易 出 错 的， 那么 这 也 会 很 方便 地 找到 该 映射 产生 
的 数据 。 <<< 


在 14. 1 节 中 ， 我 们 会 从 两 个 不 同 的 角度 描述 什么 是 数据 湖 源 : 描述 数据 产生 和 演化 
的 标注 和 数据 间 的 一 系列 关系 。 这 两 个 角度 在 特定 场景 中 都 是 天 然 存在 的 。14. 2 NA 
据 湖 源 的 一 些 应 用 。14. 3 节 将 讨论 数据 渊源 的 一 个 形式 化 模型 ， 澜 源 半 环 模型 〈prove- 
nance semirings) 。 该 模型 可 以 获得 选择 - 投影 -连接 - 并 查询 的 全 部 细节 信息 。14. 4 节 简 
单 讨论 数据 溯源 信息 在 数据 库 系统 中 的 存储 。 


14.1 溯源 的 两 种 表示 方法 


溯源 是 描述 数据 由 来 的 一 个 方式 ， 我 们 可 以 用 两 个 不 同 但 又 互补 的 方法 来 表示 数 
据 溯源 。 通 常 ， 在 对 特定 数据 项 的 存在 性 或 值 进行 推理 时 使 用 第 一 种 方法 表示 溯源 ， 
而 当 对 整个 数据 库 进 行 溯源 建 模 时 使 用 第 二 种 表示 方法 。 这 两 种 表示 方法 是 等 价 的 ， 
并 且 它 们 之 间 的 相互 转换 也 是 方便 的 。 大 部 分 处 理 数 据 湖 源 的 系统 都 使 用 这 两 种 表示 
形式 。 


14.1.1 ”使 用 数据 标注 表示 溯源 


最 自然 的 方式 可 能 是 使 用 一 系列 描述 数据 是 如 何 产生 的 标注 来 表示 溯源 。 这 些 标 注 可 
以 放 到 数据 的 不 同 的 部 分 。 在 关系 模型 中 ， 这 意味 着 元 组 或 元 组 中 的 字段 需要 被 标注 。 例 
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如 ， 元 组 t 的 溯 源 可 能 是 一 组 元 组 i 、t, 、t3， 对 它们 进行 连接 操作 可 以 生成 元 组 to 在 更 
复杂 的 模型 中 ， 例 如 XML， 湖 源 的 标注 可 能 放 在 树 或 子 树 上 。 这 些 标注 能 够 描述 元 组 的 转 
换 过 程 (映射 或 查询 操作 ) 以 及 数据 的 来 源 。 


例 14.2 如 图 14-1 ras, 一 个 样本 数据 库 实例 包含 了 两 个 基本 数据 实例 ( 表 R 和 表 
S$) 。 使 用 关系 代数 表达 式 尺 SUSMS 得 到 一 个 视图 Vi。 对 Vi 的 每 个 元 组 可 以 用 标注 的 方 
式 描 述 其 产生 的 方式 ， 见 图 中 的 “由 …… 直接 导出 ” (directly derivable by) 列 。 例 如 ， 
V (1，3) 的 数据 可 以 从 两 个 不 同 的 途径 得 到 ， 一 个 是 R(1,，2) 582, 3) 连接 操作 可 
以 得 到 ， 也 可 以 通过 RC, 4) 与 S(4，3) 连接 操作 得 到 。 

KAR 关系 5S 视图 Vi :=RMSUSMS 


[141B| | Bi Cc] 
HH 2/3 R(1,2) NM S(2,3) U R(1,4) M S(4,3) 
1 : S(2,3) m PB-+A,C-+B S(3,2) 








S(3,2) M PBA CB S(2,3) 


图 14-1 两 个 基本 关系 实例 和 一 个 视图 实例 (包含 关系 代数 的 定义 ) <<< 


当 想 要 使 用 数据 溯源 对 元 组 分 配 一 些 计 分 或 可 信和 度 评估 时 ， 这 个 角度 提供 了 极 大 的 
便利 性 。 实 际 上 ， 淹 源 的 标注 可 以 看 做 是 一 个 表达 式 ， 该 表达 式 的 计算 结果 是 一 个 
得 分 。 

我 们 很 快 就 会 看 到 ， 标 注 的 概念 甚至 可 以 被 推广 来 支持 递归 依赖 。 例 如 ， 对 于 递归 的 
视图 或 循环 的 模式 映射 集 。 


14.1.2 使 用 数据 关系 图 表示 济源 


某 种 情况 下 ,使 用 源 数据 和 生成 数据 之 间 的 映射 来 表示 湖 源 会 更 自然 。 换 句 话 说 ， 把 
数据 的 溯源 看 做 是 一 组 图 。 这 样 的 图 可 以 将 溯源 以 一 种 很 自然 的 方式 展现 出 来 并 且 同 时 保 
存 了 溯源 信息 。 

更 具体 地 说 ， 我 们 将 溯源 模型 化 为 一 个 以 数据 元 组 作为 节点 的 超 图 。 每 个 从 一 组 源 元 
组 得 到 的 导出 元 组 都 对 应 一 个 连接 源 元 组 和 导出 元 组 的 超 边 。 用 datalog 的 说 法 ， 从 一 组 
源 元 组 得 到 的 导出 元 组 称 为 特定 规则 的 直接 结果 (immediate consequent) 。 


例 14. 3 如 图 14-1 所 示 ， 我 们 可 以 用 datalog 重新 定义 V 的 代数 表达 式 : 


Vi(x,2):- R(x, y), S(,Z) 

Vi (x,x):- S(x,y), S(y,x) 

V, 视图 实例 中 的 每 一 个 元 组 都 是 来 自 其 他 元 组 的 直接 结果 ， 即 ， 是 通过 对 这 些 元 组 使 
用 datalog 规则 直接 得 到 的 。 在 图 中 我 们 可 以 看 到 V, 中 第 一 个 元 组 可 以 从 R 和 5 的 两 对 不 
同 元 组 连接 操作 得 到 ， 同 时 V, 的 第 二 个 和 第 三 个 元 组 可 以 简单 地 从 S 的 自 连接 操作 中 得 
到 。 我 们 可 以 通过 使 用 图 14-2 的 超 图 将 元 组 之 间 的 关系 可 视 化 。 

在 这 个 例子 中 ,规则 名 (V) 和 结果 元 组 (V (a, b)) 的 关系 名 相同 。 然 而 ， 
在 更 通用 的 数据 集成 场景 中 ， 我 们 可 能 有 多 个 映射 或 规则 来 表达 源 和 目标 实例 之 间 的 
约束 。 这 里 ， 每 个 规则 或 关系 可 能 有 一 个 唯一 的 名 字 ， 从 而 可 以 与 输出 关系 名 加 以 
区 分 。 
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|_V1(3,3) | 
图 14-2 在 数据 库 (和 视图 ) 实例 中 元 组 关系 的 超 图 ， 使 用 矩形 节点 表示 元 组 ， 
有 和 人 度 和 出 度 的 椭圆 表示 生成 数据 的 超 边 <<< 


14.1.3 两 种 表示 方法 的 可 交换 性 


值得 一 提 的 是 ， 使 用 上 节 所 讨论 的 形式 概述 ， 任 何 数据 溯源 图 都 可 以 等 价 地 通过 元 
组 标注 来 表达 。 特 别 地 ， 如 果 想 要 支持 溯源 图 中 的 递归 导出 ， 可 以 为 每 一 个 元 组 赋予 一 
个 相应 的 溯源 标记 (provenance token ) 。 对 于 原始 数据 ， 使 用 一 个 源 标 记 (base token) 
来 表示 它 是 一 个 已 知 的 源 数据 。 对 于 导出 数据 ， 我 们 使 用 一 个 结果 标记 ， 表 示 它 的 值 是 
通过 其 他 湖 源 标记 的 一 个 溯源 表达 式 计 算 而 来 的 。 所 有 湖 源 标记 的 集合 形成 一 个 方程 
组 ， 这 个 方程 组 的 解 在 递归 的 情形 下 可 能 会 无 限 地 扩大 。 幸 运 的 是 ， 正 如 我 们 在 14. 2 
节 所 讨论 的 ， 如 果 我 们 能 够 给 该 数学 结构 分 配合 适 的 语义 ， 则 我 们 可 以 很 容易 地 处 理 和 
推理 这 些 标 注 。 

例 14.4 我 们 举例 说 明 图 14-3 中 方程 组 的 含义 。 这 里 重新 绘制 了 图 14-1 中 的 表 ， 所 
有 的 元 组 使 用 溯源 标记 来 标注 ， 它 表示 该 元 组 是 源 数 据 值 或 者 是 其 他 湖 源 标记 表达 式 的 计 
算 结果 。 








KAR 关系 $ HEV, 
AB] 标志 BTC] 标记 Cape] 标记 
HH Tı 2;3)]s) 1 | 3 | v1 =r] M s1 Ure M s3 
1 T2 3 | 2 | so 2 | 2 | v2 =s so 
4 |3 | s3 3 | 3 | v3 =S2 MS] 





图 14-3 图 14-1 是 基于 淹 源 标记 的 标注 方程 组 。 每 一 个 元 组 用 一 个 标记 标注 ， 其 值 是 一 个 其 他 标记 的 
表达 式 。 这 里 我 们 使 用 非 形 式 化 的 连接 和 并 操作 ， 在 14. 3 节 会 提供 一 个 形式 化 的 框架 <<< 


在 该 模型 中 ， 每 个 乘积 项 表示 导出 元 组 直接 由 一 组 元 组 推导 而 来 ， 其 对 应 于 溯源 过 程 
中 的 一 个 超 边 。 


14.2 数据 溯源 的 应 用 


溯源 ， 作 为 解释 结果 的 一 种 方法 ， 在 很 多 情况 下 都 非常 有 用 。 存 储 和 检查 溯源 的 目的 
可 以 大 致 分 为 三 类 : 数据 项 解释 、 数 据 项 计 分 和 元 组 间 交 和 集 的 推理 。 


[362 | 


363 
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解释 

在 各 种 情况 中 ， 最 终 用 户 或 数据 集成 者 可 能 希望 看 到 输出 元 组 的 “解释 " 。 元 组 可 能 
看 起 来 是 错误 的 : 我 们 可 能 需要 找到 是 哪个 映射 产生 了 这 个 错误 以 便 修正 该 映射 或 清洗 该 
数据 源 。 此 外 ， 我 们 可 能 需要 了 解数 据 的 来 源 和 导出 的 方式 以 便 获得 更 好 的 结果 。 在 这 种 
情况 下 ， 我 们 的 目标 可 能 是 构造 一 个 展示 溯源 的 图 ， 例 如 一 个 表示 元 组 产生 的 数据 流 和 操 
作 的 有 向 图 。 


计 分 

在 很 多 情况 下 ， 我 们 可 以 给 原始 数据 、 映 射 和 连接 或 并 集 操作 赋 一 个 初 值 。 该 初 值 可 
以 代表 一 个 置信 水 平 、 作 者 的 权威 性 、 随 机 游 走 中 到 达 一 个 节点 的 概率 或 相似 性 度量 等 。 
在 这 些 情 况 下 ， 给 定 湖 源 和 一 个 组 合计 分 的 策略 ， 我 们 就 可 以 以 标注 的 形式 自动 地 得 到 导 
出 数据 的 计 分 。 例 如 ， 我 们 可 以 从 溯源 信息 中 自动 获得 事件 的 概率 表达 式 〈 其 描述 一 个 联 
合 的 事件 为 真 的 条 件 ) 或 负 对 数 释然 计 分 (描述 了 联合 事件 为 真 的 对 数 似 然 估 计 )。 访 问 
级 别 可 能 与 计 分 密切 相关 : 如 果 已 知 源 数据 有 一 组 特定 的 访问 权限 ， 那 么 可 以 自动 地 判断 
出 导出 数据 至 少 有 同样 的 权限 保护 。 


交集 的 推理 


有 时 不 仅 需 要 查看 元 组 的 溯源 ， 同 时 还 要 了 解 不 同 元 组 之 间 的 关系 。 例 如 ， 我 们 可 能 
想 要 知道 两 个 不 同 元 组 是 否 是 独立 推导 出 来 的 、 一 个 元 组 是 否 依赖 于 另 一 个 元 组 的 出 现 或 
者 两 个 元 组 是 否 共享 一 个 上 映射。 这里， 我 们 可 能 需要 构造 具有 关联 关系 的 数据 项 集合 或 者 
数据 项 之 间 的 连接 关系 图 。 


14.3 济源 半 环 


A 2000 年 以 来 ， 人 们 提出 了 很 多 描述 数据 溯源 的 形式 化 方法 ， 每 一 种 方法 都 能 够 捕 
提 详 细 的 信息 来 解释 元 组 的 溯源 。 其 中 效果 最 好 的 方法 是 溯源 半 环 (provenance semir- 
ings) ， 该 方法 是 使 用 核心 关系 代数 (EP. RH. HEHE. HF) 得 到 元 组 间 关 系 的 最 常 
见 的 表达 方式 。 漳 源 半 环 同时 也 提供 了 两 个 有 用 的 特性 : 1) 不 同 的 代数 等 价 关系 表达 
式 s 可 以 得 到 代数 等 价 的 溯源 ; 2) 可 以 根据 溯源 标注 ， 使 用 相同 的 形式 来 给 物化 视图 中 
的 导出 数据 计算 各 种 计 分 类 型 ， 即 不 再 需要 重新 计算 。 最 近 的 研究 已 经 扩展 了 溯源 半 环 模 
型 ， 支 持 更 丰富 的 查询 语言 〈 例 如 ， 支 持 聚 集 操作 ) ， 但 是 我 们 在 本 节 还 是 主要 介绍 核心 
关系 代数 。 


14.3.1 半 环 形式 化 模型 
通过 关系 代数 查询 生成 的 元 组 ， 有 两 种 组 合 元 组 的 基本 途径 : 通过 连接 或 笛 卡 儿 积 的 


O 这 里 ， 等 价 的 是 指 用 于 优化 器 中 的 标准 的 关系 代数 转换 。 因 此 ， 对 于 任意 的 查询 都 会 产生 查询 计划 。 可 以 
在 参考 文献 注释 里 查看 更 多 的 细节 。 
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方法 得 到 一 个 “连接 ”元 组 ， 并 且 通 过 投影 或 并 操作 消除 重复 元 组 的 方式 得 到 多 归 一 元 
组 。 不 过 ， 关 系 代数 具有 针对 这 些 操作 的 等 价 公 式 。 例 如 ， 并 操作 满足 交换 律 、 连 接 操作 
对 并 操作 满足 分 配 律 。 半 环 模型 就 是 设计 用 来 利用 这 些 等 价 关系 的 ， 这 种 代数 等 价 的 查询 
表达 式 可 以 作为 等 价 的 渊源 标注 。 更 重要 的 是 ， 在 不 影响 淹 源 的 情况 下 ， 半 环 模 型 可 以 利 
用 查询 优化 器 为 查询 选择 不 同 的 执行 计划 。 
溯源 半 环 的 基本 形式 包含 下 面 几 个 方面 : 
e 一 个 溯源 标记 或 元 组 标识 符 K 的 集合 可 以 唯一 地 识别 每 一 个 元 组 的 关系 或 值 。 例 
如 ， 使 用 关系 ID 和 键 值 作为 获得 溯源 标记 的 方法 。 标 记 可 以 分 为 表示 原始 数据 的 
源 标记 (base token) 和 通过 其 他 标记 和 溯源 表达 式 得 到 的 结果 标记 。 
。 一 个 抽象 的 求 和 运算 由 ， 满 足 结合 律 和 交换 律 ， 和 一 个 么 元 0 (a O0=a=0@ 
a)» 
。 一 个 抽象 的 乘积 运算 @， 满 足 结合 律 和 交换 律 ， 同 时 对 求 和 操作 满足 分 配 律 ， 并 
且 有 一 个 么 元 1， 满 足 a@81=16@a=a。 同 时 还 满足 ，a @0=0@a=0。 

更 形式 化 地 ， (K, ©, ©, 0, 1) 形成 一 个 满足 交换 律 的 半 环 ，(K， 名 , 0) 和 
(下 ，@,，1) 形成 满足 交换 律 的 么 半 群 (commutative monoids) ， 其 中 四 对 四 满足 分 
配 律 。 

更 直观 地 ， 如 果 天 的 每 个 元 素 都 是 一 个 元 组 ID ， 则 @ 四 可 以 用 来 表示 多 个 表达 式 的 
并 或 投影 运算 。@ 操 作对 应 于 多 个 表达 式 结 果 的 连接 操作 或 应 用 一 个 给 定 的 映射 
规则 。 


例 14.5 假设 我 们 给 图 14-1 中 表格 XX(y，z) 的 每 一 个 元 组 分 配 一 个 溯源 标记 已 :。 
例如 ,元 组 RI1，2) 有 标记 R,.. WALA V 中 的 元 组 的 溯源 如 下 所 示 。 
AJC 溯源 表达 式 
3 Vi,3 = 21,2 @S2,3 ® R1,4 Q S4,3 
2 V2,2 = S2,3 ® S3,2 
3 V3,3 = $3,2 ® S2,3 <<< 








w N = 











扩展 : 映射 的 标记 


有 时 给 生成 数据 的 映射 或 规则 〈 甚 至 是 映射 的 版 本 或 规则 的 定义 ) 分 配 一 个 溯源 标 
注 也 是 很 方便 的 。 这 让 我 们 不 仅 能 够 跟踪 数据 项 的 演化 过 程 ， 也 能 够 最 终 用 于 创建 元 组 
的 映射 。 我 们 最 终 可 能 想 给 每 一 个 映射 分 配 一 个 计 分 ,例如 根据 其 正确 的 概率 ， 并 把 这 
个 计 分 应 用 在 标注 的 计算 上 。 在 第 13 章 中 我 们 讨论 了 使 用 表 语 义 为 模式 映射 分 配 概率 
得 分 。 


例 14.6 将 例 14. 5 扩展 到 这 样 一 个 场景 中 ， 在 此 我 们 不 确定 视图 V 的 质量 。 给 视图 
V, 分 配 一 个 标记 w ， 表 示 我 们 对 该 视图 输出 质量 的 置信 和 度 。 那 么 视图 V, 中 元 组 的 溯源 如 
下 所 示 。 


A 济源 表达 式 


1 V1,3 = v1 @ [R12 ® 52,3 ® R1,4 ® 54,3] 
2 V2,2 = v1 ® [S2,3 ® 53,2] 
3 V3,3 = V1 ® [S3,2 Q 52,3] <<< 





注意 ， 在 例子 中 我 们 将 元 组 溯源 定义 为 其 他 元 组 漳 源 标注 的 一 个 多 项 式 表达 式 。 
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该 模型 对 包括 递归 关系 在 内 的 复杂 溯源 关系 也 足够 通用 。 同 时 可 以 与 图 14-1 的 超 图 

表示 进行 直接 转换 : 每 一 个 元 组 的 溯源 标记 对 应 超 图 的 一 个 元 组 节点 ; 每 一 个 映射 的 

溯源 标记 对 应 一 个 超 边 ， 其 起 点 为 标记 的 元 组 节点 指向 结果 (输出) 溯源 标记 的 元 
组 节点 。 


14.3.2 半 环 模型 的 应 用 


一 个 简单 的 数据 溯源 应 用 是 帮助 终端 用 户 将 数据 产生 演化 的 过 程 可 视 化 ， 例 如 可 以 用 
来 进行 查 错 或 更 好 地 了 解数 据 。 图 14-4 展示 了 这 样 一 个 例子 ,济源 可 视 化 器 用 在 
ORCHESTRA 系 统 中 ， 可 视 化 组 件 使 用 矩形 表示 关系 中 的 元 组 。 推 导 用 菱形 来 指 代 ， 例 如 
通过 映射 MS 表示 推导 。 此 外 ， 用 + 节点 表示 源 数据 的 插入 。 





14-4 FE ORCHESTRA 系统 的 示例 中 ， 淹 源 的 可 视 化 是 作为 超 图 来 展现 出 来 的 。“ + ”节点 表 
示 源 数据 的 插入 ; 矩形 表示 关系 间 的 元 组 ; 而 萎 形 ,例如 标记 为 MS WRB, Rawat 
模式 映射 进行 推导 


溯源 半 环 形式 的 真正 能 力 在 于 可 以 通过 给 出 但 各 操作 的 一 个 解释 和 源 济源 标注 的 一 
个 分 值 来 对 元 组 进行 评分 。 通 过 执行 对 济源 表达 的 估算 ,我 们 可 以 自动 得 到 这 些 计 分 。 此 
外 ， 相 同 的 溯源 存储 表示 可 以 直接 用 于 所 有 应 用 中 一 一 我 们 不 需要 不 同 的 存储 表示 ， 例 如 
可 视 化 的 溯源 、 分 配 计 分 或 元 组 计数 等 应 用 。 


例 14.7 假设 我 们 有 一 个 简单 的 计 分 模型 ， 在 这 个 模型 中 ， 一 个 元 组 的 得 分 是 根 
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据 其 推导 的 次 数 来 计算 的 。 令 每 个 基 元 组 R ,或 5, .的 值 为 整数 1，@ 表 示 算 术 乘 法 ， 外 
表示 算术 加 法 。 令 么 元 工 为 整数 数值 1， 么 元 0 为 整数 数值 0。 最 后 ， 令 v 的 值 为 整数 


数值 1 。 
AJC 溯源 表达 式 的 评估 
L3 Vi3=1-1-1+1-1-1=2 
2|2 Vo2=1-1-l=1 
3/3 Vag =1-1-le=1 <<< 


那么 对 于 V, 得 到 : 

例 14.8 假设 在 常见 的 信息 检索 中 我 们 有 一 个 稍微 复杂 的 计 分 模型 : 每 一 个 元 组 
使 用 负 对 数 似 然 (negative log likelihood) 作为 它 的 分 值 ， 即 其 概率 对 数 的 负数 。 假 设 所 
有 元 组 都 是 独立 的 ， 一 个 连接 结果 的 负 对 数 似 然 就 是 被 连接 表达 式 的 负 对 数 似 然 之 和 。 
当 一 个 元 组 有 两 个 不 同 的 导出 方式 时 ， 我 们 将 选择 最 可 能 的 情况 〈 即 负 对 数 似 然 最 小 的 
情况 ) s 。 

可 以 使 用 下 面 的 方法 对 每 个 元 组 计算 它 的 负 对 数 似 然 作为 标注 。 令 每 个 源 元 组 R, ,或 
S, ,的 值 为 元 组 的 负 对 数 似 然 ; 令 四 表示 算术 加 法 ， 四 表示 取 最 小 值 的 操作 ， 令 元 素 工 为 
实数 值 1， 元 素 0 为 实数 数值 0。 最 后 , 令 v 的 值 为 视图 正确 性 的 负 对 数 似 然 。 我 们 将 这 
些 部 分 整合 在 一 起 ， 就 会 得 到 一 个 计 分 。 在 很 多 的 情形 下 ， 我 们 只 希望 返回 视图 中 计 分 为 
前 个 的 元 组 (详情 参见 16.2 节 )。 <<< 


除了 这 些 简 单 的 例子 外 ,还 有 各 种 有 用 的 可 交换 半 环 。 表 14-1 是 操作 符 和 基 值 分 
配 的 列表 。 可 导出 半 环 (derivability semiring) 给 所 有 基 元 组 赋予 真 值 ， 并 判断 一 个 元 组 
(其 标注 必须 也 为 真 ) 是 否 可 以 从 它们 导出 。 除 了 必须 检查 每 一 个 基 元 组 (EDB) 是 否 
可 信 外 ,将 基 元 组 的 标注 赋值 为 true 或 false。 此 外 ， 每 一 个 映射 可 以 和 乘法 的 么 元 
true 相关 联 ， 这 样 不 会 影响 其 他 相 乘 项 的 值 ; 或 者 与 表示 不 信任 的 值 false 相关 联 ， 当 
与 任意 项 相 乘 时 都 返回 false。 任 何 标注 为 true 的 导出 元 组 都 是 可 信 的 。 机 密 等 级 半 环 
(confidentiality level semiring) 为 通过 多 个 源 元 组 连接 导出 的 元 组 分 配 一 个 访问 机 密 等 级 
(confidentiality access level) 。 对 于 任意 的 连接 操作 ， 它 将 输入 元 组 中 最 高 等 级 (RE 
全 ) 分 配给 输出 元 组 ; 对 于 任意 的 并 操作 ， 它 将 输入 元 组 中 最 低 等 级 (最 不 安全 ) 分 
配给 输出 元 组 。 在 上 一 个 例子 中 ， 使 用 的 加 权 / 代 价 半 环 在 排名 模型 中 同样 适用 ， 这 里 
的 输出 元 组 会 给 定 一 个 代价 ， 该 代价 是 每 个 单独 计 分 或 连接 项 的 权重 之 和 (在 并 操作 中 
会 选择 最 小 的 代价 ) 。 这 个 半 环 可 以 用 来 生成 关键 字 查询 的 排序 结果 或 者 用 来 评估 数据 
的 质量 。 概 率 半 环 可 以 用 于 概率 数据 库 查询 应 答 中 概率 事件 表达 式 的 表示 。 世 系 半 环 
(lineage semiring) 对 应 于 一 个 元 组 的 一 些 推 必 过程 中 所 有 基 元 组 的 集合 。 在 第 一 个 例子 中 
使 用 的 推导 半 环 的 数目 可 以 通过 每 个 元 组 导出 方式 的 计数 获得 ， 在 包 语 义 下 的 关系 模型 中 
也 是 如 此 。 








日 ”注意 这 并 不 计算 概率 的 正确 结果 。 这 是 在 机 器 学 习 领 域 中 经 常 使 用 的 一 个 易 处 理 的 近似 解 ， 因 为 计算 真正 
的 概率 是 一 个 #P 完全 问题 。 
O ”从 这 些 事件 表达 式 中 计算 实际 的 概率 一 般 都 是 一 个 引 完全 问题 。 使 用 溯源 半 环 模型 也 不 会 改变 这 一 点 。 
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表 14-1 在 计算 计 分 时 一 些 对 基 值 和 估算 溯源 操作 有 用 的 赋值 






































R@S R@S 
RAS RVS 

可 信任 信任 条 件 结果 RAS RVS 

权重 元 组 的 基 权 重 more-secure (R, S) less-secure (R, S) 
R+S min (R, S) 

世系 元 组 ID RUS RUS 

可 能 性 事件 元 组 的 可 能 事件 RAS RVS 

生成 的 个 数 1 R-S R+S 











注 : 就 像 在 参考 文献 注释 中 所 写 的 , HR RELAI 个 不 同 的 方法 。 这 里 我 们 只 是 指 最 原始 的 定义 。 
半 环 溯源 已 经 通过 扩展 来 支持 嵌 套 数据 ， 例 如 XML (参见 参考 文献 注释 ) 。 
14.4 溯源 的 存储 


溯源 半 环 的 超 图 表示 方式 可 以 很 自然 地 使 用 关系 来 编码 。 假 设 有 一 组 关系 元 组 ， 并 且 
想 将 它们 的 溯源 信息 进行 编码 。 图 中 每 个 元 组 节点 都 可 以 通过 数据 库 表 中 的 元 组 进行 编 
码 。 每 种 类 型 的 溯源 超 边 (在 视图 中 的 连接 规则 ) 都 有 其 自己 的 模式 ， 它 是 由 一 组 特定 类 
型 的 输入 和 输出 元 组 ID 组 成 ， 这 些 ID 是 数据 库 管理 系统 中 元 组 的 外 键 。 这 种 超 边 类 型 的 
每 个 实例 都 可 以 存储 为 数据 库 中 的 一 个 元 组 。 


例 14.9 我 们 可 以 为 本 章 中 使 用 的 例子 创建 两 个 溯源 表 , Py, (RA, RB, S.B, 
S.C, V-A, Ve C) 和 P, , (SB, S.C, S.B’, S.C’, VeA, VC), AURR V, 中 的 


第 一 个 和 第 二 个 连接 查询 ， 使 用 下 面 的 内 容 来 描述 通过 V 生成 数据 的 超 边 。 


Pvy 


ea Tae [5 se ra e 
1 2 3 
1 4 8 


Pvi_2 


Ono 


<< 


事实 上 ， 通 过 观察 发 现 ， 在 很 多 例子 中 一 个 导出 的 各 种 关系 会 有 重 肆 〈 共 享 ) 的 属 
性 ， 我 们 可 以 进一步 优化 这 个 存储 模型 。 例 如 ， 大 部 分 输出 属性 可 以 从 输入 属性 中 得 到 ， 
最 常见 的 情况 是 ,我们 只 需要 根据 特定 属性 的 等 值 来 进一步 合并 输入 元 组 。 一 个 溯源 表 只 
需要 包含 一 份 这 些 属性 即 可 。 


例 14. 10 我们 用 下 面 的 内 容 把 前 面 的 模型 细 化 为 P，，(4，B，C) 和 P,， (B, 
CG; GC )a 





Pyi_ Pvi 2 
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我 们 知道 在 V, 的 规则 中 , R.A=V.A=A, R.B=S.B=B, S.C=V,.C=C; EV, 的 第 二 
个 规则 中 ， 对 于 第 一 个 操作 数 来 说 ，5. B V A 和 列 B 相等 ， 在 第 一 个 操作 数 中 的 S.C 与 
第 二 个 操作 数 中 的 S. B 匹配 ， 且 值 为 C， 对 于 第 二 个 操作 数 来 说 S. C=V.C=C'。 <<< 


参考 文献 注释 


在 写 这 本 书 的 时 候 ， 数 据 溯 源 仍 然 处 于 数据 库 领 域 的 深入 研究 中 。 最 活跃 的 研究 工作 
包括 捕获 查询 的 更 有 表达 性 的 查询 语句 〈 例 如， 和 否定、 聚集 ) 、 淹 源 索引 存储 和 工作 流 系 
统 溯源 编码 问题 的 数据 溯源 关系 理解 〈 在 后 面 的 例子 中 ， 一 个 工作 流 系统 通常 是 各 个 阶段 
的 流水 线 ， 我 们 很 难 知道 其 中 的 语义 ) 。 

最 近 许 多 年 在 科学 研究 领域 中 ,济源 (有 时 也 称 为 血统 或 世系 ) 已 经 成 为 了 一 个 热门 
的 研究 题目 。 在 数据 库 领 域 中 对 数据 溯源 最 早 的 形式 化 定义 可 以 追溯 到 21 世纪 初期 ，Cui 
和 Widom 第 一 次 针对 数据 仓库 提出 了 世系 的 概念 ， 其 中 在 视图 中 元 组 的 世系 是 由 源 元 组 
或 证 据 [155 ] 的 集合 的 ID 组 成 。 几 乎 同时 ，Buneman 等 提出 了 why-provenance (AW) 和 
where-provenance (HW) 的 概念 [98 ] why-provenance 包含 了 一 组 基 元 组 ID 的 集合 ， 每 
一 个 “内 部 的 ”集合 表示 在 视图 中 可 以 导出 有 用 元 组 的 元 组 的 组 合 ， 不 同 的 集合 代表 不 同 
的 导出 。where-provenance 和 标注 元 组 不 同 ， 它 是 向 下 对 每 一 个 单独 的 字段 进行 标注 。Trio 
系统 的 工作 开发 了 一 个 针对 世系 不 同 的 形式 定义 ， 与 在 [67] 中 描述 的 源 元 组 集合 包 类 似 。 
最 后 ， 世 系 项 最 近 也 被 用 在 概率 事件 表达 式 中 [535]。 [267 ] 中 详细 描述 了 主要 的 不 同 湖 
源 形式 化 间 的 关系 。 

近年 来 ,济源 半 环 的 形式 化 来 得 到 了 广泛 的 研究 。 最 主要 的 原因 是 它 保留 了 经 常 使 用 
的 代数 等 价 式 所 包含 的 包 语 义 。 然 而 ， 应 当 指 出 ， 有 些 等 价 关 系 代数 包含 的 是 集合 语义 而 
不 是 包 语 义 ， 例 如 连接 和 并 的 究 等 性 ， 这 些 性 质 并 没有 包含 在 半 环 模型 中 。 我 们 可 以 在 
[28 ，267 ] 中 看 到 更 多 的 内 容 。 虽 然 我 们 在 本 书 中 没有 明确 地 讨论 ， 但 溯源 半 环 的 形式 化 
可 以 扩展 来 支持 结构 数据 上 的 溯源 标注 ， 就 像 在 where- provenance 或 XML 数据 模型 中 一 样 
[231 ] 。 扩 展 后 也 可 以 同样 支持 聚集 查询 [29 ] 。 

Perm[252 253] 与 半 环 模型 类 似 ， 但 是 它 更 注重 于 支持 其 他 的 一 些 操作 ， 例 如 半 连 
接 。 在 Perm 之 上 建立 的 TRAMP 模型 [254] 可 以 区 分 数据 、 查 询 和 映射 的 溯源 。 

其 他 类 似 的 溯源 概念 是 想 要 解释 “为 什么 没有 产生 这 个 结果 ”或 “为 什么 这 个 结果 
比 其 他 结果 排名 高 "[117，307，372] 。 最 后 ， 在 判断 漳 源 的 哪个 部 分 能 够 更 好 地 解释 产生 
的 结果 时 ， 与 因果 关系 的 概念 间 的 联系 就 会 建立 起 来 [424，425 ] 。 

HUE, 在 Trio[67] 和 ORCHESTRA[324] 项 目 中 的 工作 激发 出 有 更 强 捕获 不 同 导出 数 
据 湖 源 能 力 的 研究 。 在 Trio 中 ， 当 第 一 次 计算 世系 (概率 事件 的 表达 式 ) 时 ， 概 率 值 就 
会 分 配给 导出 的 元 组 。 在 ORCHESTRA 中 ， 导 出 元 组 的 信任 级 别 或 排名 会 根据 它们 是 怎么 
导出 的 计算 出 来 。 在 [67] 和 [231，267，269] 中 有 它们 分 别 的 介绍 。 [133 ] 是 一 篇 非常 优 
秀 的 数据 溯源 领域 的 综述 。 

在 数据 库 领 域 中 ， 针 对 科学 工作 流 系统 范畴 下 的 溯源 研究 主要 是 探索 一 组 表达 性 更 好 
的 操作 。 这 里 的 工作 流 由 在 一 个 流水 线 中 的 多 个 “ 黑 盒 ”操作 组 成 〈 可 能 有 控制 结构 ， 
例如 迭代 ) 。 与 数据 溯源 探究 关系 操作 上 的 语义 不 同 ， 工 作 流 溯源 必须 假设 如 果 有 等 价 关 
系 包 含 语义 ， 那 么 也 只 有 非常 少 的 语义 。 因 此 ， 湖 源 是 一 个 纯粹 的 表示 数据 输入 、 工 具 和 
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数据 产品 之 间 联 系 的 图 。 工 作 流 淹 源 领 域 一 直 是 开放 漳 源 模型 (Open Provenance Model ) 
[470 ] 的 工作 核心 。 在 科学 工作 流 系统 中 最 全 面 地 集成 了 数据 渊源 的 系统 是 VisTrails[ 58 ] ， 
这 是 一 个 用 于 生成 科学 可 视 化 的 工作 流 系 统 。VisTrails 能 够 使 用 户 检查 和 查询 数据 溯源 ， 
甚至 可 以 将 数据 溯源 归纳 到 工作 流 中 。 其 他 的 工作 流 系统 (例如 ，Taverna[ 468 ] 和 Kepler 
L400] ) 也 支持 湖 源 。 在 工作 流 漳 源 方向 新 兴起 的 研究 是 保护 部 分 溯源 图 或 将 其 抽象 出 来 
[87，164] 。 最 近 的 一 些 研 究 提出 了 可 以 整合 数据 库 和 工作 流 溯源 的 模型 [27] 。 

在 数据 库 领 域外 ， 与 数据 溯源 相关 的 一 些 形式 也 在 研究 。 其 中 有 两 个 突出 的 领域 ， 一 
个 是 在 文件 系统 中 的 溯源 问题 [448 ] ， 另 一 个 是 程序 中 从 属 分 析 的 研究 工作 [132] 。 最 近 ， 
公开 的 描述 网 络 协议 技术 上 的 一 些 工作 提出 了 网 络 湖 源 的 概念 [595 ] 。 基 于 这 些 想 法 ， 在 
系统 中 记录 动态 事件 的 溯源 形式 [594] 和 确保 分 布 式 溯源 是 不 可 伪造 的 溯源 形式 [593 ] 已 
研究 出 来 。 还 有 其 他 学 者 在 语义 网 络 和 链接 开放 数据 (Linked Open Data) 的 溯源 问题 上 
做 了 一 些 工 作 [387，436，591 ] 。 

最 后 ， 鉴 于 溯源 有 其 自己 的 数据 模型 〈 超 图 或 半 环 等 式 系统 ) 和 操作 (一 个 图 的 部 
分 投影 、 计 算 标注 ) ， 以 及 对 最 终 用 户 的 输出 值 ， 一 个 很 自然 的 问题 就 是 如 何 对 它 进行 存 

储 和 查询 。 在 [343 | 中 提出 了 一 个 初始 的 湖 源 查询 语言 和 存储 模式 。 
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万 维 网 以 各 种 形式 为 我 们 提供 了 大 量 的 数据 。 其 中 ， 数 据 都 以 HTML 表格 、 列 表 以 及 
基于 表单 的 搜索 界面 等 方式 组 织 起 来 ， 大 部 分 数据 通常 是 以 结构 化 的 形式 呈现 给 用 户 而 非 
机 器 以 便于 理解 。 这 些 种 类 各 异 的 数据 源 是 由 世界 各 地 的 用 户 创造 的 ， 包 含 100 多 种 语 
言 ， 并 涵盖 了 各 种 主题 。 在 这 些 数量 庞大 的 数据 上 构建 数据 集成 服务 系统 除了 需要 本 书 所 
介绍 的 许多 技术 之 外 ， 还 存在 着 一 些 独特 的 挑战 。 

虽然 Web 为 我 们 提供 了 各 种 结构 化 内 容 ， 包 括 XML (第 11 章 所 述 ) 和 RDF (第 12 
章 所 述 ) F, 但 目前 为 止 最 主要 的 表现 形式 仍 是 HTML。 我 们 可 以 以 多 种 形式 在 HTML 页 
面 中 呈现 格式 化 数据 。 图 15-1 展示 了 几 种 最 常见 的 形式 : HTML 表格 、HTML 列表 以 及 格 
式 化 的 “卡片 ”或 者 模板 等 。 第 9 章 讨 论 了 如 何 从 一 个 HTML 页 面 中 提取 内 容 。 然 而 ， 除 
了 构建 页 面包 装 器 任务 以 外 ，Web 数据 集成 还 存在 着 许多 额外 的 挑战 。 


大 规模 和 异 构 性 


据 保守 估计 ，Web 中 存在 着 至 少 10 亿 个 结构 化 HTML 数据 集 。 当 然 ， 这 些 数据 的 质量 也 
是 有 差异 的 一 一 通常 都 是 脏 的 、 错 误 的 、 过 时 的 或 者 与 其 他 数据 源 不 一 致 的 数据 。 正 如 前 面 所 
讨论 的 那样 ， 这 些 数据 还 可 能 用 不 同 的 语言 表示 。 然 而 ， 在 很 多 情况 下 ， 我 们 需要 用 一 些 通 用 
的 、 可 扩展 的 并 且 不 需要 大 量 管理 员 参 与 的 技术 来 处 理 这 些 数据 。 


极 少 的 结构 化 和 语义 线索 


虽然 这 些 数据 集 对 用 户 而 言 看 起 来 是 结构 化 的 ， 但 是 计算 机 程序 从 网 页 中 抽取 出 数据 
的 结构 仍 面临 着 一 些 挑战 。 首 先 ，HTML 页 面 中 显而易见 的 可 视 化 结构 在 底层 的 HTML 中 
可 能 对 应 着 不 同 的 结构 。 其 次 ，HTML 表格 主要 用 来 以 格式 化 的 形式 展现 任意 的 数据 ， 因 
此 ， 大 部 分 被 格式 化 为 HTML 表格 的 内 容 实际 上 并 不 是 如 我 们 所 想 的 高 质量 的 结构 化 数 
据 。 当 表格 数据 出 现在 Web 中 时 ， 它 通常 是 以 少数 几 种 模式 来 展现 的 。 在 最 好 的 情况 下 ， 
表格 将 含有 一 个 带 有 列 名 的 标题 行 ， 但 是 ， 通 常 我 们 很 难 判断 第 一 行 是 否 是 标题 行 。 表 格 
所 表示 的 关系 通常 由 其 上 下 文 文本 所 决定 并 且 难 以 抽取 。 例 如 ， 位 于 图 15-1 左下 角 的 表 
格 展示 了 一 个 波士顿 马拉松 赛跑 优胜 者 的 列表 ， 但 是 这 一 事实 却 被 放置 在 其 上 下 文 文本 的 
某 个 地 方 。 从 网 页 中 的 列表 抽取 数据 还 面临 着 其 他 的 挑战 。 列 表 完 全 没有 任何 模式 可 言 ， 
而 且 列表 中 的 一 项 表示 的 是 数据 库 中 的 一 整 行 。 因 此 ， 我 们 首先 需要 将 每 个 列表 分 割 ， 形 
成 一 个 由 多 个 单元 构成 的 行 。 卡 片 使 用 相同 的 模板 来 呈现 对 象 的 属性 。 为 了 抽取 数据 ， 我 
们 需要 知道 该 模板 特定 的 布局 结构 。 


动态 内 容 或 “深层 网 络 ” 


许多 包含 结构 化 数据 的 网 页 是 在 响应 用 户 通过 HTML 表单 提交 的 查询 请 求 的 过 程 中 动 
态 生 成 的 。 图 15-2 展示 了 几 个 此 类 表单 的 例子 。 在 某 些 领域 中 ， 如 汽车 行业 、 求 职 、 房 
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地 产 、 公 共 记 录 、 活 动 赛事 以 及 专利 等 ， 每 个 领域 都 可 能 有 成 百 上 千 的 表单 。 然 而 ， 现 
实生 活 中 仍然 存在 着 长 尾 效 应 一 一 许多 领域 所 含有 的 表单 数量 非常 少 。 比 如 ， 在 管理 良 
好 的 直辖 市 中 的 被 福 交 易 、 出 售 马 、 停 车 费 等 情况 。 


15-1 


图 15-2 


© 


Country od) 
Ka Worid 
E Sr we 
2 Vries tn 
@ Japan 


E Crier PR) 
RE onany 


VAY 一 tseph Chabert, 


ib 一 Moses Tatas K 





1998 — Moss G 


GDP (millions ot USD) pi 


60,689,812" 
wan 


14.264.000 
4,023,761 
4A01.014" 
3067513 
2.065.737 
2.674 nas 
2332.09 
31676508 


1.611,76? 


















J SM Californ Aye, Palo Akto CA 


E3 $40 Hamitton Ave, Palo Alto CA 


$2,239,000 
dor oa E2785 war SUT Meat 
Snpe-F amily Home 
ý Crescomt Park 
b 


(2 771 Coastland Or, Palo Ato CA 


$1,599,000 
w dna 7.115 egi 
of- amoy Home 
a 





Web 中 不 同形 式 的 结构 化 数据 。 左 上 和 角 是 一 张 由 各 个 国家 CDP 构成 的 HTML 表格 ， 左 下 角 
展示 了 含有 波士顿 马拉松 赛跑 优胜 者 信息 的 HTML 列表 的 一 部 分 。 右 边 则 展示 了 一 张 房 地 
产 搜索 结果 列表 ， 其 中 每 个 结果 被 格式 化 地 表示 为 一 张 卡片 
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Web 中 的 HTML 表单 示例 。 左 边 的 表单 用 于 二 手 车 搜索 服务 ， 右 上 角 的 表单 用 于 艺术 作品 搜 
索 服 务 ， 而 右 下 角 的 表单 则 用 于 公共 记录 搜索 服务 

由 于 基于 表单 的 数据 源 通常 提供 一 个 结构 化 的 查询 接口 ， 所 以 Web 数据 集成 的 大 部 
分 工作 都 集中 在 为 众多 的 表单 提供 统一 的 访问 接口 。 而 以 便捷 的 方式 访问 此 类 数据 显得 更 
为 重要 ， 因 为 这 些 数据 通常 隐藏 在 Web 搜索 引擎 中 。 具 体 来 说 ，Web 搜索 引擎 疏 虫 通常 
都 是 通过 追踪 已 索引 网 页 中 所 包含 的 超 链接 来 收集 网 页 。 然 而 ， 那 些 通过 表单 调用 生成 的 
网 页 是 在 运行 过 程 中 动态 产生 的 ， 并 且 往 往 不 含 导入 链接 。 基 于 这 个 原因 ， 这 部 分 内 容 称 
为 深层 网 络 或 者 暗 网 ， 并 与 浅 层 网 络 形成 对 照 。 此 类 表单 数据 源 的 数量 估计 数 以 千 万 计 ， 
而 深层 网 络 中 所 包含 内 容 的 数量 估计 是 浅 层 网 络 所 含 内 容 数量 的 两 个 数量 级 。 


这 只 是 大 小 的 估计 ， 而 不 是 有 效 内 容 的 估计 。 
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15. 1 Web 数据 的 用 途 


与 其 他 类 型 的 数据 集成 相 比 ，Web 数据 源 通常 具有 更 强 的 异 构 性 ， 包 含 更 少 的 能 让 系 
统 自 动 知晓 该 做 什么 的 线索 ， 并 具有 更 大 的 规模 。 更 糟糕 的 是 ， 就 规模 而 言 ， 我 们 通常 局 
限于 所 需 的 人 数 甚至 是 我 们 能 对 单个 数据 源 进行 多 少 自动 处 理 。 因 此 ， 随 之 产生 的 问题 就 
是 我 们 是 否 能 够 处 理 以 及 如 何 处 理 Web 数据 。 

显然 ， 答 案 是 我 们 能 够 使 用 Web 中 的 数据 源 来 提供 各 种 服务 ， 从 数据 集成 到 改进 搜 
索 服 务 不 等 。 在 介绍 抽取 和 查询 这 些 数据 的 具体 技术 之 前 ， 我 们 首先 思考 一 下 Web 中 的 
结构 化 数据 有 哪些 可 能 的 用 途 ， 这 将 为 我 们 提供 更 多 的 局 发 。 


数据 集成 


当面 对 某 个 特定 主题 的 多 个 数据 源 时 ， 一 个 直接 的 目标 就 是 提供 一 个 能 够 在 这 些 数据 
源 中 检索 数据 的 单一 查询 接口 。 例 如 ， 我 们 能 够 创建 一 个 整合 了 多 个 求职 网 站 数据 的 统一 
网 站 ， 从 而 避免 访问 多 个 求职 网 站 。 此 类 搜索 引擎 通常 称 为 垂直 搜索 引擎 (vertical- search 
engine ) 。 

一 个 与 前 者 稍 有 些 不 同 的 目标 是 创建 一 个 整合 了 某 个 特殊 领域 的 所 有 数据 的 主题 门户 
网 站 。 例 如 ， 假 设 有 这 样 一 个 网 站 ， 它 整合 了 数据 库 研究 这 一 领域 内 的 所 有 信息 ， 包 括 研 
究 人 员 、 会 议 以 及 出 版 物 等 。 其 中 ， 不 同 种 类 的 数据 来 源 于 不 同 的 网 站 。 例 如 ， 关 于 研究 
人 员 的 数据 来 源 于 某 一 个 数据 源 集合 ， 而 关于 出 版 物 的 数据 则 来 源 于 男 一 个 数据 源 集合 。 
与 此 相反 ， 一 个 垂直 搜索 引擎 则 通常 是 对 提供 了 同类 数据 信息 (如 待 售 汽车 ) 的 多 个 网 站 
的 数据 进行 整合 。 

数据 集成 的 第 三 个 目标 是 针对 暂时 性 或 者 “一 次 性 ”数据 的 整合 任务 。 我 们 可 能 会 
将 多 个 数据 源 的 数据 结合 起 来 ， 用 以 创建 一 个 临时 所 需 的 数据 集合 。 例 如 ， 考 虑 下 面 这 
两 种 情况 ， 在 一 次 赈灾 活动 中 ， 我 们 需要 快速 创建 一 个 在 线 地 图 用 来 展示 所 有 的 避难 所 
位 置 及 其 联系 方式 ; 或 者 ， 为 了 完成 一 项 课程 项 目 ， 某 学 生 需 要 将 各 个 国家 的 水 资源 可 
利用 量 和 GDP 信息 收集 起 来 。 与 前 两 种 数据 集成 任务 不 同 的 是 ， 这 里 我 们 所 面向 的 不 
是 那些 技术 如 熟 的 用 户 群 。 针 对 此 类 用 户 我 们 将 有 另 一 类 的 系统 设计 方法 。 


改进 Web 搜索 


利用 结构 化 数据 来 改进 Web 搜索 的 方法 有 很 多 种 。 我 们 可 以 把 Web 搜索 看 做 是 数据 
集成 中 一 种 不 需要 进行 连接 操作 (只 需 并 操作 ) 的 特殊 情况 。 

正如 上 面 所 提 到 的 ， 深 层 网 络 的 内 容 对 于 搜索 引擎 来 说 是 不 可 用 的 ， 它 暴露 了 搜索 引 
人 擎 在 覆盖 面 和 搜索 质量 方面 存在 的 一 个 显著 缺陷 。 另 一 个 改进 Web 搜索 的 机 会 是 将 布局 
结构 作为 一 个 关联 标志 。 例 如 ， 如 果 我 们 搜索 到 一 个 含有 表格 的 网 页 ， 表 格 中 含有 一 个 标 
记 为 population (A) 的 列 以 及 一 个 左边 列 中 含有 Zimbabwe (津巴布韦 ) ATT, BP 
么 该 网 页 应 该 认为 是 与 查询 “Zimbabwe population ”相关 的 ， 即 使 网 页 中 出 现 population 
的 位 置 与 Zimbabwe 的 位 置 相距 甚 远 。 
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Web 搜索 的 另 一 个 长 期 目标 是 将 客观 事实 作为 结果 返回 。 例 如 ， 如 果 用 户 查 询 
“Zimbabwe population”， 而 正确 答案 存在 于 一 张 表格 中 ， 那 么 我 们 可 以 返回 结果 在 表格 中 
的 行 号 和 指向 相应 源 数据 的 指针 。 我 们 甚至 可 以 要 求 更 高 一 些 ， 返 回 推导 出 的 事实 。 例 
如 ， 对 于 查询 “africa population”， 我 们 可 以 根据 一 张 含 有 非洲 所 有 国家 人 口 数量 的 表格 
来 计算 出 所 需 的 答案 。 当 今 的 Web 搜索 引擎 只 能 在 合约 许可 的 数据 源 的 支持 下 对 有 限 领 
域 (如 天 气 、 比 赛 结果 等 ) 内 的 查询 给 出 事实 类 答案 。 

最 后 ， 我 们 搜索 的 目的 往往 是 找 出 结构 化 数据 。 例 如 ， 作 为 某 次 课堂 作业 的 一 部 分 ， 
我 们 可 能 正在 查找 一 个 含有 美国 不 同城 市 犯罪 率 的 数据 集合 。 目 前 ， 由 于 我 们 还 无 法 显 式 
地 告诉 搜索 引擎 我 们 正在 查找 一 张 数据 表 ， 所 以 我 们 仍 局 限于 手动 地 浏览 那些 含有 结构 化 
数据 的 查询 结果 这 一 单调 而 乏味 的 过 程 中 。 

接 下 来 ,我 们 将 讨论 几 个 用 来 提供 上 述 服务 的 工作 。15. 2 节 将 介绍 两 个 利用 深层 网 络 
内 容 来 提供 服务 的 工作 : 搜索 引擎 (如 待 售 汽车 )， 以 及 深层 网 络 浅 层 化 。 前 者 运用 了 虚 
拟 数据 集成 系统 中 的 许多 思想 ， 而 后 者 则 尝试 利用 表单 来 候 取 并 找 出 有 用 的 HTML 页 面 。 
15.3 节 将 介绍 用 于 将 某 个 特定 领域 内 的 各 种 数据 整合 起 来 的 主题 门户 网 站 〈 如 找 出 所 有 
关于 数据 库 研 究 人 员 的 已 知 数据 ) 。 最 后 ，15. 4 节 将 阐述 Web 数据 集成 中 的 一 种 常见 情 
况 ， 即 用 户 需要 为 其 临时 任务 将 多 个 数据 集 整 合 起 来 〈 如 将 某 个 国家 的 咖啡 产量 与 其 人 口 
关联 起 来 ) 。 


15.2 深层 网 络 


深层 网 络 包 含 了 蕴含 在 广泛 领域 和 多 种 语言 中 的 数据 。 用 户 通 过 填写 表单 来 访问 深层 
网 络 中 的 内 容 。 当 问题 被 提交 之 后 ， 系 统 会 动态 地 生成 一 个 应 答 网 页 。 这 里 ,我 们 讨论 的 
重点 将 放 在 提供 某 个 特定 领域 (如,， 汽车、 专利 等 ) 数据 的 深层 网 络 源 上 ， 而 不 是 提供 通 
用 搜索 或 者 “搜索 该 网 站 ”功能 的 表单 。 

在 介绍 如 何 通 过 深层 网 络 网 站 整合 数据 之 前 ， 我 们 先 回 顾 一 下 Web 表单 的 基本 结构 。 
一 个 HTML 表单 定义 在 一 个 特殊 的 HTML 表单 标签 内 (参见 图 15-3 中 说 明 图 15-4 所 示 表 






Keywords: 
State: 








Sort By: 


15-3 ”定义 一 个 表单 的 HTML 代码 。 该 表单 定义 了 一 组 字段 、 
字段 的 类 型 、 菜 单 选项 以 及 处 理 表单 请 求 的 服务 器 
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HHJ HTML 代码 ) 。action 字段 指定 了 响应 表单 的 提交 并 进行 查询 处 理 的 服务 器 。 一 张 表单 
可 以 含有 多 个 输入 控件 ， 其 中 每 一 个 均 由 一 个 输入 标签 定义 。 输 入 控件 有 多 种 类 型 ， 其 中 
主要 的 有 文本 框 、 选 择 菜单 〈 由 一 个 单独 的 选择 标签 定义 ) 、 复 选 框 、 单 选 按钮 以 及 提交 
按钮 。 每 个 输入 都 有 一 个 名 字 ， 该 名 字 不 同 于 用 户 在 HTML 页 面 中 所 看 到 的 名 字 。 例 如 ， 
在 图 15-3 中 用 户 将 看 到 一 个 名 为 Keywords 的 字段 ， 但 是 该 字段 的 名 字 可 以 被 浏览 器 或 
者 Javascript 程序 定义 为 kw。 用 户 要 么 通过 在 文本 框 中 输入 任意 的 关键 字 ， 要 么 通过 从 选 
择 菜 单 、 复 选 框 或 者 单 选 按钮 中 预先 给 定 的 选项 中 选择 一 项 来 选择 其 输入 值 。 除 此 以 外 ， 
表单 中 还 含有 用 户 不 可 见 且 值 固 定 的 隐藏 输入 。 这 类 输入 是 用 来 为 服务 器 提供 关于 表单 提 
交 的 额外 内 容 (如 ， 提 交 该 表单 的 具体 的 网 站 ) 。 我 们 的 讨论 主要 集中 在 选择 菜单 和 文本 
框 上 。 复 选 框 和 单 选 按钮 可 以 当做 选择 菜单 来 看 待 。 


Keywords: | State: (0) Sor By: (T) (oo) 


15-4 图 15-3 所 定义 的 表单 的 展现 形式 


图 15-3 中 的 例子 包含 了 一 个 用 于 让 用 户 搜索 工作 职位 的 表单 。 当 一 个 表单 提交 之 后 ， 
Web 浏览 器 将 以 GET 和 POST 两 种 方式 中 的 一 种 向 服务 器 发 送 一 个 带 有 所 有 输入 项 和 其 值 
的 HTTP 请 求 。 如 果 选 用 GET 方式 ,那么 表单 中 所 包含 的 参数 将 会 附加 到 action 中 并 被 当 
做 HTTP 请 求 中 URL 的 一 部 分 。 例 如 ， 如 下 所 示 的 URL 

http://jobs.com/find?src=hp&kw=chef&s t=Any&sort=salary&s=go 
定义 了 一 个 寻找 所 有 地 区 的 厨师 职位 并 将 结果 按 工资 水 平 排序 的 查询 。 如 果 选 用 POST 方 
式 ， 那 么 表单 参数 将 在 HTTP 请 求 的 正文 中 被 发 送出 去 而 URL 仅 包含 action (40, http:// 
jobs. com/find) 。 因 此 ， 从 采用 GET 方式 的 表单 中 获取 的 URL 是 唯一 的 并 对 提交 的 值 进行 
了 编码 ， 而 从 采用 POST 方式 的 表单 中 获取 的 URL 则 不 然 。 该 差异 之 所 以 重要 的 一 个 原因 
是 ， 一 个 搜索 引擎 索引 能 够 将 一 个 GET 类 型 的 URL 看 做 是 任意 的 其 他 网 页 ， 从 而 对 特定 
请 求 的 结果 网 页 进行 存储 。 

查询 深层 网 络 的 方式 主要 有 两 种 。 第 一 种 方式 〈 详 见 15.2. 1 节 ) 在 数 千 个 深层 网 络 
源 上 建立 垂直 搜索 引擎 以 整合 那些 非常 狭隘 的 领域 中 的 数据 。 第 二 种 方式 〈 详 见 15. 2. 2 
W) 则 尝试 朴 取 旧 表 单 并 将 页 面 添加 到 搜索 引擎 索引 中 ， 而 这 个 搜索 引擎 索引 是 建立 在 任 
意 领域 的 数 百 万 个 站 点 之 上 的 。 


15.2.1 垂直 搜索 


我 们 首先 介绍 垂直 搜索 引擎 。 垂 直 搜索 引擎 的 目标 是 为 同一 领域 内 的 一 系列 数据 源 提 
供 单一 的 访问 人 口 。 在 垂直 搜索 所 涵盖 的 大 多 数 普通 领域 内 ， 如 汽车 、 工 作 、 房 地 产 以 及 
机 票 等 ， 可 能 有 数 千 个 网 站 含有 与 之 相关 的 内 容 。 即 使 我 们 将 范围 限制 在 与 某 个 特定 大 城 
市 相关 的 网 站 内 ， 仍 然 可 能 还 有 数 十 个 相关 的 网 站 一 一 数量 太 多 而 难以 手动 浏览 。 图 15-5 
表明 ， 即 使 是 简单 的 领域 ， 如 求职 ， 不 同 表单 所 包含 的 输入 字段 之 间 仍 然 存在 着 显著 的 差 
异性 。 因 此 ， 垂 直 搜索 引擎 需要 解决 这 种 异 构 性 。 就 其 本 身 而 言 ， 垂 直 搜 索引 擎 就 是 一 种 
特殊 化 的 虚拟 数据 集成 系统 ， 而 该 系统 我 们 已 经 在 前 面 的 章节 中 介绍 过 了 。 接 下 来 ,我 们 
将 以 此 介绍 垂直 搜索 引擎 中 的 各 个 组 件 。 
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图 15-5 ”两 个 不 同 的 用 于 搜索 工作 列表 的 Web 表单 


中 介 模 式 


垂直 搜索 引擎 的 中 介 模 式 用 于 对 我 们 所 关心 的 对 象 的 重要 属性 进行 建 模 。 中 介 模 式 中 
的 一 些 属性 是 输入 属性 ， 并 将 出 现在 用 户 所 访问 的 表单 中 。 而 其 他 属性 则 是 输出 属性 ， 并 
将 只 出 现在 搜索 结果 页 面 中 。 例如， 一 个 整合 了 图 15-5 中 两 个 源 的 数据 的 求职 中 介 模 式 
将 含有 表单 中 所 包含 的 所 有 属性 ， 如 category, keywordDescription, city, state 等 ， 
以 及 像 openingDate 和 employingAgency 这 样 仅 出 现在 结果 中 的 属性 。 在 某 些 情况 下 ， 
表单 所 包含 的 属性 可 能 是 模式 所 包含 属性 的 最 小 或 最 大 值 (如 ，minPay ) 。 


源 描 述 


垂直 搜索 引擎 中 的 源 描述 同样 也 是 比较 简单 的 ， 因 为 这 些 源 在 逻辑 上 表现 为 单一 关系 。 
因此 ， 源 描述 所 包含 的 主要 部 分 为 : 1) 源 的 内 容 〈 如 ， 书 籍 、 工 作 、 汽 车 等 ); 2) 选择 条 
件 〈 如 ， 相 关 的 地 理 位 置 、 价 格 范围 等 ); 3) 能 够 被 查询 的 属性 ; 4) 结果 中 出 现 的 属性 ; 
5) 访问 模式 限制 ， 例 如， 在 生成 查询 时 需要 哪个 输入 字段 或 字段 的 组 合 ( 详 见 3.3 节 )。 


例 15.1 图 15-5 所 示 的 USAJobs. com 网 站 的 一 个 源 描述 如 下 所 示 : 
Contents: jobs 

Constraints: employer = USA Federal Government 

Query attributes: keywords, category, location, salaryRange, payGrade 

Output attributes: openingData, employingAgency 


Access restrictions: at least one field must be given <<< 


我 们 可 以 用 第 5 章 中 描述 的 技术 来 构建 源 的 描述 。 特 别 地 ， 由 于 同一 领域 中 的 不 同 表单 
之 间 存 在 着 许多 相似 之 处 ， 所 以 基于 学 习 的 模式 匹配 技术 ( 详 见 5.8 节 ) 显得 尤为 有 用 。 

Web 中 的 异 构 特 性 对 查询 重 写 带 来 一 些 独特 的 挑战 。 尤 其 是 ， 表 单 常常 使 用 下 拉 式 菜 
单 来 为 用 户 提供 选项 。 例 如 ， 某 房地产 网 站 可 能 会 用 一 个 下 拉 式 菜 单 来 让 用 户 指定 需要 搜 
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索 的 财产 类 型 (如 独 峡 别 墅 、 公 寓 、 度 假 物 业 等 ) 。 然 而 ， 各 个 表单 的 分 类 并 非 总 是 相互 
一 致 的 。 例 如 ， 对 于 某 些 城市 ， 房 地 产 网 站 可 能 会 特意 给 出 lakefront 这 一 选项 ， 然 而 对 
其 他 城市 则 没有 类 似 的 分 类 。 另 一 个 挑战 是 所 要 处 理 的 范围 《如 ， 价 格 范围 ) 。 中 介 模 式 
的 范围 可 能 与 各 个 数据 源 中 的 范围 不 完全 匹配 ， 因 此 系统 可 能 需要 将 一 个 单独 的 范围 重 写 
为 多 个 范围 的 联合 。 


包装 器 

垂直 搜索 引擎 的 包装 器 包含 两 部 分 : 1) 生成 对 底层 网 站 的 查询 ; 2) 处 理 查询 返回 的 
结果 。 生 成 查询 相对 来 说 比较 简单 。 在 确定 了 需要 对 某 特 定 网 站 生成 什么 样 的 查询 之 后 ， 
系统 只 需要 创建 相应 的 HTTP 请 求 即 可 。 如 果 用 户 曾 经 在 该 网 站 上 直接 生成 过 相应 的 查 
询 ， 那 么 该 HTTP 请 求 可 能 已 经 存在 。 对 于 那些 使 用 HTML 的 GET 方式 来 查询 后 台数 据 库 
的 网 站 而 言 ， 该 过 程 相 当 于 创建 一 个 含有 查询 参数 的 URL。 而 对 于 那些 使 用 POST 方式 的 
网 站 来 说 ， 查 询 参数 需要 作为 HTTP 请 求 的 一 部 分 来 发 送 。 

然而 ， 由 于 一 些 网 站 中 存在 着 更 为 复杂 的 交互 方式 ， 所 以 生成 查询 这 一 过 程 也 面临 着 
一 个 有 趣 的 难题 。 例 如 ， 房 地 产 网 站 通常 会 为 用 户 提供 开始 几 步 的 指导 直到 他 能 够 独立 查 
询 房 屋 信息 。 在 第 一 步 中 用 户 将 首先 选择 一 个 州 ， 在 第 二 步 中 他 将 从 这 个 州 中 选择 一 个 
县 。 最 后 ， 用 户 可 以 在 他 看 到 的 第 三 个 页 面 中 查询 所 选 县 内 的 房屋 信息 。 然 而 ， 垂 直 搜索 
引擎 的 目标 是 向 用 户 隐 藏 这 些 所 有 的 细节 。 因 此 ， 如 果 用 户 提交 了 一 个 对 某 城 市 的 查询 ， 
那么 系统 需要 知道 如 何 到 达 正 确 的 县 级 搜索 页 面 。 

关于 如 何 处 理 查询 所 返回 的 HTML 页 面 这 一 问题 ， 我 们 主要 有 两 种 选择 。 我 们 要 么 直 
接 将 HTML 页 面 呈 现 给 用 户 〈 同 时 附带 着 一 个 用 来 对 不 同 网 站 的 答案 进行 简便 导航 的 选 
项 ) ， 要 么 设法 从 返回 的 页 面 中 提取 出 结构 化 的 搜索 结果 。 相 比 起 来 ， 前 一 种 方法 更 加 容 
易 实 现 并 且 对 底层 的 源 来 说 更 为 友好 。 因 为 许多 网 站 都 是 依靠 广告 收益 来 支持 其 运作 ， 所 
以 更 加 和 希望 垂直 搜索 引擎 能 够 为 其 网 站 带 来 更 多 的 流量 。 从 应 答 网 页 中 解析 结果 需要 使 用 
信息 提取 技术 〈 详 见 第 9 章 ) 。 然 而 ， 这 些 技术 通常 需要 为 每 个 网 站 分 别 训 练 机 器 学 习 算 
法 ， 这 使 得 该 方法 很 难 扩展 到 大 规模 数据 源 。 


15.2.2 深层 网 络 浅 层 化 


当然 ,我们 可 以 沿用 原 有 方法 来 为 深层 网 络 中 的 数 千 个 领域 分 别 构建 垂直 搜索 引擎 。 
然而 ， 这 种 方法 是 不 切实 际 的 ， 原 因 有 以 下 几 上 点。 首先， 创建 一 个 如 此 广泛 以 至 于 能 够 覆 
瘟 许 多 领域 的 模式 所 需 的 人 力 资源 太 大 。 实 际 上 ， 我们 无 法 确定 这 样 一 个 模式 是 否 能 够 建 
成 。 除 了 需要 覆盖 众多 领域 之 外 ， 该 模式 还 需要 用 一 百 多 种 语言 来 进行 设计 和 维护 ， 同 时 
还 需要 考虑 其 中 存在 的 微妙 的 文化 差异 。 即 使 尝试 着 将 这 个 问题 分 解 为 多 个 小 问题 也 是 相 
当 环 手 的 ， 因 为 领域 之 间 的 界限 通常 很 不 明确 。 例 如 ， 从 生物 学 这 一 领域 开始 ， 我 们 很 容 
易 就 会 将 其 划分 为 医学 、 药 物 学 等 。 当 然 ， 为 数 百 万 个 源 构建 和 维护 源 描述 信息 的 代价 也 
同样 让 人 望而却步 。 最 后 ， 由 于 我 们 不 可 能 要 求 用 户 熟 悉 中 介 模 式 或 者 简单 地 从 数 千 个 可 
选 的 领域 中 选择 其 感 兴趣 的 一 个 ， 所 以 系统 必须 能 够 接受 任意 结构 以 及 任何 领域 内 的 关键 
字 查 询 。 而 如 何 确定 一 个 关键 字 查询 是 否 能 够 重 写 为 与 众多 已 知 领域 中 的 某 一 个 相关 的 结 
构 化 查询 的 问题 是 一 个 具有 挑战 性 的 并 仍 未 解决 的 问题 。 
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一 个 能 够 全 方位 地 访问 深层 网 络 的 更 为 实际 的 方法 称 为 浅 层 化 〈surfacing) 。 在 这 种 
方法 中 ， 系 统 首先 估计 出 一 组 相关 的 查询 用 以 提交 给 它 从 Web 中 找到 的 表单 。 然 后 系统 
提交 这 些 查询 并 接收 返回 的 HTML 页 面 ， 随 后 ， 这 些 HTML 页 面 将 被 加 入 到 搜索 引擎 索引 
中 〈 从 此 ， 它 们 成 为 了 浅 层 网 络 的 一 部 分 ) 。 在 查询 时 ， 这 些 浅 层 化 了 的 网 页 将 与 索引 中 
其 他 网 页 一 起 参与 排名 。 

这 种 浅 层 化 方法 除了 不 再 需要 人 工 构建 中 介 模 式 和 进行 映射 以 外 ， 其 主要 优点 在 于 它 
利用 了 搜索 引擎 的 索引 和 排名 系统 ， 而 这 些 系统 通常 是 经 过 仔细 调 优 的 大 型 软件 系统 。 索 
引 中 经 过 排序 的 URL 与 表单 中 特定 的 查询 动态 相关 。 因 此 ， 当 用 户 点 击 浅 层 化 了 的 网 页 
中 的 某 个 结果 时 ， 它 将 被 引导 到 一 个 在 那 一 刻 动态 创建 出 来 的 网 页 上 。 

这 种 浅 层 化 方法 的 主要 缺点 是 ， 我 们 丢失 了 与 网 页 相关 的 语义 。 假 设 我 们 通过 在 某 个 
专利 网 站 上 填写 表单 并 在 topic 字段 中 填 人 “chemistry” (化 学 ) 来 浅 层 化 相关 网 页 。 单 
词 “chemistry” 可 能 不 会 出 现在 任何 结果 网 页 中 ， 因 此 它们 可 能 不 会 被 询问 “chemistry 
patents”( 化 学 专利 ) 的 查询 检索 到 。 虽 然 我 们 可 以 通过 在 索引 文档 时 加 入 “chemistry” 
一 词 来 缓解 该 问题 ， 但 是 在 化 学 领域 的 所 有 子 领域 (如 材料 科学 、 聚 合 物 等 ) 和 其 他 相关 
领域 中 都 加 入 这 一 单词 是 不 切实 际 的 。 

浅 层 化 一 个 深层 网 络 网 站 需要 一 个 算法 来 检测 HTML 表单 并 返回 一 组 相关 且 格 式 良好 
的 查询 用 以 提交 到 表单 上 。 为 了 能 够 适用 于 成 千 上 万 个 不 同 的 表单 ， 该 算法 中 不 能 含有 任 
何 的 人 为 干涉 。 现 在 我 们 来 描述 一 下 该 算法 所 面临 的 两 个 主要 的 技术 挑战 : 1) 如何 选择 
表单 字段 集合 中 的 哪 一 部 分 来 作为 输入 ; 2) 如 何在 文本 框 中 输入 有 效 的 值 。 

1) 确定 输入 组 合 HTML 表单 通常 都 含有 多 个 输入 字段 。 因 此 ， 一 个 朴素 的 策略 就 
是 对 所 有 输入 可 能 值 的 笛 卡 儿 积 进行 一 一 枚 举 ， 但 该 方法 会 产生 大 量 的 查询 。 提 交 所 有 的 
查询 将 会 耗 尽 Web 网 络 息 虫 的 资源 ， 并 可 能 会 对 响应 这 些 HTML 表单 的 Web 服务 器 带 来 
过 大 的 负载 。 此 外 ， 当 笛 卡 儿 积 非常 大 时 ， 很 可 能 所 返回 的 大 部 分 结果 网 页 都 是 空 的 ， 从 
而 无 法 用 来 进行 索引 。 举 一 个 例子 ，cars. com 中 虽然 只 有 不 到 100 万 辆 待 售 汽车 ， 但 该 网 
站 的 某 个 搜索 表单 中 含有 5 个 输入 ,并且 这 些 输入 的 一 个 笛 卡 儿 积 产生 了 超过 2.4 亿 
个 URL。 

一 个 在 实践 中 已 经 被 证 实 有 效 的 启发 式 选择 输入 组 合 的 方法 是 寻找 有 价值 的 输入 。 从 
直观 上 来 说 ， 表 单 中 的 一 个 字段 f (或 者 一 组 域 ) 是 有 价值 的 ， 如 果 当 我 们 改变 /的 值 并 
保持 其 他 值 不 变 时 能 够 得 到 本 质 上 各 不 相同 的 网 页 。 考 虑 这 样 一 个 求职 网 站 ， 它 含有 输入 
FE state 和 sort by， 以 及 其 他 的 字段 。 在 state 字段 中 填 人 不 同 的 值 将 会 得 到 含有 不 同 
州 的 工作 职位 的 网 页 ， 而 且 这 些 网 页 很 可 能 相互 各 异 。 相 反 ， 在 sort by 字段 内 填 人 不 同 
的 值 将 只 会 改变 同一 网 页 中 结果 的 顺序 ， 网 页 的 内 容 保持 不 变 。 

我 们 可 以 通过 自 下 而 上 的 方式 来 找 出 好 的 输入 组 合 。 首 先 ， 我 们 独立 地 考虑 表单 中 的 
每 一 个 字段 ， 并 确定 哪些 是 有 价值 的 。 然 后 ， 考 虑 两 个 字段 组 成 的 对 ， 其 中 至 少 有 一 个 字 
段 是 有 价值 的 ， 并 检查 哪些 对 是 有 价值 的 。 接 着 ， 考 虑 由 3 个 字段 组 成 并 包含 一 个 有 价值 
对 的 集合 ， 并 以 此 类 推 。 实 际 上 ， 结 果 表 明 我 们 很 少 需要 考虑 含有 3 个 以 上 字段 的 组 合 ， 
尽管 有 时 我 们 可 能 需要 针对 某 些 特殊 的 表单 考虑 几 个 字段 的 组 合 。 

2) 生成 文本 字段 的 值 ” 当 一 个 字段 是 下 拉 式 菜单 形式 时 ， 我 们 能 为 该 字段 提供 的 值 
的 集合 已 经 确定 。 而 对 于 文本 字段 ， 我 们 则 需要 为 其 生成 相关 的 值 。 通 常 使 用 欠 代 探测 法 
来 实现 。 首 先 ， 通 过 分 析 网 页 中 所 包含 的 文本 信息 来 预测 出 候选 关键 字 ， 这 些 网 页 来 自 那 
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些 含有 索引 中 所 包含 的 表单 网 页 的 网 站 。 我 们 使 用 这 些 候 选 关键 字 来 测试 表单 ， 并 且 当 有 
效 的 表单 提交 结果 返回 时 ， 就 从 这 些 结果 页 面 中 提取 出 更 多 的 关键 字 。 这 个 迭代 的 过 程 不 
断 地 进行 直至 无 法 提取 出 新 的 候选 关键 字 或 者 达到 预先 设 定 的 关键 字数 量 。 然 后 ， 从 所 有 
候选 关键 字 构 成 的 集合 中 提取 出 一 个 较 小 的 子 集 ， 而 这 个 子 集 需 要 能 够 保持 数据 库 内 容 的 
多 样 性 。 


NOR AY te 

浅 层 化 算法 将 从 深层 网 络 网 站 中 得 到 部 分 数据 ， 但 是 却 无 法 保证 网 站 的 覆盖 率 。 事 实 
上 ， 通 常 我 们 并 不 知道 深层 网 络 数据 库 中 存在 着 多 少数 据 ， 因 此 我 们 无 法 确定 我 们 是 否 获 
取 了 所 有 的 数据 。 其 实 ， 事实 证 明 ， 仅 仅 将 深层 网 络 网 站 中 的 部 分 内 容 浅 层 化 就 足够 了 ， 
即使 它 并 不 完整 。 当 拥有 了 足够 好 的 网 站 内 容 样本 之 后 ， 直 接 指向 该 网 站 的 查询 数量 将 得 
到 大 幅度 增长 。 而 且 ， 一 旦 该 网 站 的 部 分 内 容 被 浅 层 化 了 ， 搜 索引 擎 的 让 虫 将 会 通过 跟踪 
浅 层 化 了 的 网 页 中 的 链接 来 发 现 新 的 深层 网 络 的 网 页 。 最后， 我 们 注意 到 ， 此 浅 层 化 技术 
只 适用 于 采用 CET 方式 的 深层 网 络 网 站 ， 而 不 适用 于 采用 POST 方式 的 网 站 。 事 实 上 ， 许 
多 接受 POST 请 求 的 源 同时 也 接受 CET 请 求 。 


15.3 主题 门户 网 站 


一 个 主题 门户 网 站 通常 提供 了 有 关 整 个 主题 的 一 个 集成 视图 。 例 如 ， 考 虑 这 样 一 个 门 
户 网 站 ， 它 整合 了 某 研究 领域 的 研究 人 员 的 所 有 信息 。 该 网 站 将 该 领域 内 所 有 人 员 的 个 人 
信息 、 指 导 老 师 和 学 生 、 各 自 的 出 版 物 、 该 领域 内 的 会 议和 期 刊 以 及 会 议 的 程序 委员 会 成 
员 等 数据 都 整合 起 来 。 例 如 ， 该 网 站 可 以 为 每 个 人 分 别 创 建 一 个 超 页 ， 如 图 15-6 所 示 。 

主题 门户 网 站 在 集成 方式 上 与 垂直 搜索 引擎 有 所 不 同 。 从 概念 上 讲 ， 这 两 种 类 型 的 网 
站 中 的 数据 都 是 一 张 表 格 。 垂 直 搜索 引擎 是 将 来 自 不 同 数据 源 的 行 整合 起 来 〈 如 许多 网 站 
的 一 个 并 操作 ) 。 例 如 ， 每 个 深层 网 络 网 站 均 提供 一 组 职位 列表 ， 其 中 每 组 都 表示 为 表格 
中 的 一 行 。 相 反 ， 主 题 门户 网 站 则 是 将 来 自 不 同 网 站 的 列 整合 起 来 〈 如 许多 网 站 的 一 个 连 
接 操 作 ) 。 例 如 ， 关 于 出 版 物 的 列 来 源 于 一 个 网 站 ， 然 而 关于 工作 单位 的 列 则 来 源 于 另 一 
个 网 站 。 因 此 ， 垂 直 搜索 引擎 进行 的 是 水 平 集成 ， 而 门户 网 站 则 进行 的 是 垂直 集成 。 

构建 主题 门户 网 站 的 一 个 典型 的 但 又 有 点 儿 简 单 的 方法 如 下 所 述 。 首 先 ， 运行 一 个 专 
门 用 来 查找 与 该 主题 相关 网 页 的 Web 想 下 。 为 了 判断 一 个 网 页 是 否 与 主题 相关 ， 该 怜 虫 
应 能 够 检测 网 页 中 的 单词 、 其 中 提 及 的 实体 或 者 该 页 面 的 链 入 / 链 出 。 其 次 ， 该 系统 应 能 
够 使 用 各 种 基本 信息 抽取 技术 ( 详 见 第 9 章 ) 来 找 出 网 页 中 存在 的 事实 。 例 如 ， 系 统 应 努 
力 抽取 出 如 advisedBy 和 authoredBy 等 关系 。 最 后 ， 对 于 所 有 从 网 页 中 抽取 出 的 事实 ， 
系统 应 将 它们 一 同 放 入 一 个 相关 的 知识 库 中 。 这 一 步 所 面临 的 主要 挑战 是 如 何 将 多 个 引用 
对 应 到 现实 世界 中 的 同一 物体 ， 而 该 问题 我 们 已 经 在 第 7 章 中 详细 地 讨论 过 了 。 

构建 主题 门户 网 站 的 男 一 个 更 为 有 效 的 方法 来 源 于 一 个 观察 到 的 事实 ， 即 少数 几 个 网 
站 构成 的 集合 就 能 够 提供 某 领域 内 的 大 部 分 高 质量 信息 。 而 且 ， 这 些 网 站 通常 被 该 领域 内 
的 专家 所 熟知 。 在 我 们 的 例子 中 ，DBLP “网 站 、 该 领域 的 顶级 会 议和 期 刊 网 站 以 及 该 领 





日 一 个 用 于 刊登 在 计算 机 科学 会 议和 期 刊 中 所 发 表 论文 的 知名 网 站 。 
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图 15-6 一 张 通过 整合 多 个 数据 源 的 关于 Joseph M. Hellerstein 的 信息 而 生成 的 超 页 


域内 的 数 百 个 顶级 研究 人 员 的 主页 所 构成 的 集合 就 能 提供 大 部 分 的 数据 库 研究 领域 的 信 
息 。 基 于 这 个 方法 构建 主题 门户 网 站 的 过 程 主要 分 为 两 步 。 


初始 化 设置 


首先 介绍 如 何 选 定 用 以 构建 网 站 的 主要 实体 集 和 关系 集 。 在 我 们 的 例子 中 ， 实 体 集 可 
能 是 person, conference, programCommittee 以 及 publication ， 而 关系 集 则 可 能 是 
authoredBy, advisedBy 以 及 memberOf。 然 后 ， 我 们 选择 该 领域 内 数据 源 的 初始 集 ， 
标记 为 Sino 

我 们 为 每 个 实体 集 和 关系 集 分 别 创建 一 个 抽取 器 。 这 些 抽取 器 与 通用 的 抽取 算法 相 比 
更 加 精确 ， 因 为 它们 熟知 与 其 将 要 抽取 的 关系 所 相关 的 特定 模式 。 因 此 ， 我 们 将 获得 一 个 
能 够 精确 抽取 出 实体 和 关系 的 种 子 。 并 且 ， 如 果 我 们 想 要 得 到 更 为 精确 的 数据 ， 那 么 我 们 
可 以 对 抽取 器 进行 设置 ， 使 之 能 够 掌握 特定 网 站 的 特定 结构 。 例 如 ， 一 个 熟知 DBLP 网 站 
的 抽取 器 能 够 生成 一 个 关于 作者 及 其 出 版 物 的 超 高 质量 的 数据 库 。 这 个 方法 的 另 一 个 优点 
就 在 于 ， 这 些 网 站 所 产生 的 引用 归 一 问题 也 将 更 容易 解决 ， 因 为 这 些 网 站 对 如 何 为 个 体 维 
护 唯 一 的 命名 规则 更 为 谨慎 。 
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扩展 门户 网 站 


扩展 门户 网 站 数据 覆盖 范围 的 方法 有 很 多 种 ， 这 里 我 们 将 只 讨论 其 中 的 两 种 。 第 一 
种 方法 依赖 于 这 样 一 个 启发 式 原则 ， 即 任何 与 主题 相关 的 信息 的 重要 部 分 最 终 都 会 出 现 
在 初始 集 Su 中 的 一 个 网 站 里 或 者 出 现在 由 5;,, 中 的 某 个 网 页 所 链 出 的 一 个 网 页 中 。 例 
如 ， 如 果 研 究 人 员 组 织 了 一 个 有 关 某 数据 库 研究 新 领域 的 研讨 会 ， 那 么 我 们 很 可 能 会 在 
我 们 的 某 个 核心 网 站 里 找到 一 个 指向 该 研讨 会 的 链接 。 因 此 ， 为 了 扩展 一 个 门户 网 站 ， 
我 们 需要 周期 性 地 对 初始 网 站 集合 进行 检测 ， 并 找 出 从 这 些 网 站 可 达 的 新 的 网 页 来 扩展 
该 集合 。 

第 二 种 方法 是 基于 门户 网 站 用 户 之 间 的 协作 来 完成 的 。 门 户 网 站 提供 了 一 系列 允许 用 
户 从 系统 中 收集 数据 以 及 添加 新 数据 的 机 制 。 例 如 ， 网 站 可 以 询问 用 户 某 两 个 字符 串 是 否 
与 某 个 体 相关 或 者 是 否 需 要 更 正 某 个 不 正确 的 摘要 。 在 提供 这 些 机 制 时 所 面临 的 关键 挑战 
之 一 就 是 ， 如 何 激励 团体 成 员 之 间 相 互 协 作 。 一 种 简单 的 激励 方法 是 即时 的 正 反 馈 : 用 户 
应 该 能 够 立即 看 到 他 的 更 正 对 网 站 信息 有 何 改 善 。 第 二 种 激励 的 方法 主要 基于 公开 承认 主 
要 贡献 者 来 实现 。 最 后 ， 系 统 也 应 当 能 够 保证 其 不 容易 被 错误 或 者 恶意 提交 的 信息 所 误导 
(如 来 源 于 毕业 生 的 不 实 宣传 信息 ) 。 


15.4 Web 数据 的 轻 量 级 集成 


Web 中 丰富 的 结构 化 数据 源 为 特殊 数据 集成 提供 了 许多 机 会 。 例 如 ， 有 这 样 一 个 咖啡 
爱好 者 ， 他 想 利 用 图 15-7 和 图 15-8 中 所 示 的 数据 来 将 各 咖啡 馆 连同 其 各 种 质量 评价 编辑 
成 一 个 列表 ， 或 者 考虑 一 个 用 于 快速 创建 在 线 地 图 的 赈灾 信息 库 ， 该 在 线 地 图 应 能 够 展示 
各 避难 所 的 位 置 以 及 它们 的 联系 方式 和 各 自 所 能 容纳 的 人 数 。 同 样 ， 某 新 闻 工 作者 想 要 为 
一 个 为 期 几 天 的 新 闻 故 事 添 加 数据 可 视 化 功能 。 在 某 些 情形 下 ， 我 们 可 能 只 是 将 Web 中 
可 用 的 数据 整合 起 来 ， 然 而 ， 在 男 一 些 情形 下 ， 我们 会 将 Web 数据 与 我 们 自己 的 私人 数 
据 整 合 起 来 。 这 样 的 数据 组 合 方式 通常 称 为 聚合 (mashup) ， 并 且 它 们 已 经 成 为 Web 中 提 
供 数据 服务 所 常用 的 一 种 方法 。 





ae -address Neighborhood E = = 
1 Biue Bottle Cafe 66 Mit St. SOMA 8.60 aso 8700 
2 «= Coffee Bar 1880 Bryant St Potrero Hat 6.50 8.50 a soo 
3. Blue Bottle Coffee Co. 315 Unden St "es Yasey 3.40 620 8.306 
Stue Bottle Coffee Co 1 Ferry Building Embarcadero 8.40 ?B80 8100 
Epicanter Cate 764 Harmison St SOMA 840 20 6.300 
Ritual Cofee Roasters 1026 Velenca St Mise B40 620 8300 
Ritual Coffey Roasters 1634 Jerrold Ave Bayview 840 6.00 6.200 
& = Cate Capriccio 2200 Mason St Noth Besch 6.30 780 8050 
GIN Edge Creamery (uka "Tha Creamery 685 sm St Crins Base. 6.30 800 6.150 
49. Cate Algis SO Beale St #102 SOMA 820 €00 8100 
Trouble Coffee 4033 kaish St Outer Sunset 820 620 8.209 
412 w Ca 807 22nd St Dogpasch 8.10 7 60 7%0 
13. far Bambino 2834 16% St. Mason 8.00 7.80 7.900 
Dittorewent - The Chocolate CH 2123 Fillmore St Filmore 6.00 7.50 1756 


图 15-7 一 张 在 HTML 页 面 中 找到 的 咖啡 馆 评级 表 


标准 的 数据 集成 应 用 要 求 许多 相似 的 查询 应 当 长 期 提交 到 同一 组 相对 稳定 的 源 中 。 与 
之 不 同 的 是 ， 我们 这 里 所 讨论 的 数据 集成 可 能 是 短暂 的 或 者 甚至 是 “一 次 性 的 ”任务 。 我 
们 将 只 会 在 某 个 短暂 的 时 间 内 需要 赈灾 混搭 ， 并 且 咖 啡 爱好 者 可 能 仅仅 在 他 游玩 到 该 地 区 
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时 才 需 要 这 个 咖啡 馆 列 表 。 因 此 ，Web 中 轻 量 级 数据 集成 所 面临 的 挑战 是 ， 从 根本 上 减少 
设置 数据 集成 所 需 的 时 间 和 工作 量 。 事 实 上 ， 应 该 完全 去 除 显 式 的 设置 阶段 一 一 数据 的 发 
现 、 收 集 、 清 洗 以 及 分 析 过 程 应 当 无 缝 地 综合 在 一 起 。 


poon: 
375 Valencia St 
San francisco. CA 94103 
(415) 252-0800 





A. BEST coffee I've had in the city, Perfect foam and perfect balance of esprasso to milk in their lattes. You dont 
need anything Ase- thelr aromatic esprasso and smooth steamy milk is the most satistying wake up call 


@ 2. Caffe Pascucci alata) 

Categories: Cotas & Tez, Bon, Wine & Spits 170 King St 

Neighborhood: SOMA San Francisco, CA 94107 
(415) 957-1100 





» varlenes. Particularly, | enjoy a good wel! prepared espresso drink like a cap or laite. | ses 8 place that 


£. looks lika this and it screama “good Eura coffee drinks." Unfortunately, each espresso drink | have had at 
@ 3. Sightgiass Coffee Bana } 298 reviews 
Catagory: Coftlee & Tea 270 7TH S 
Naighbornood: SOMA San Fran neisco, CA $4103 
(475) 861- 313 


the Nicaraguan. The coffee is so smooth with a rich taste that is nol over powering. Thair espresso is aiso 
one of the best, if not the best espresso | have had in the city. You must atso check out iheir pastries ney... 


mia) T4. Biue Bottle Coffee CIE 
Cegory Calton a. Te 315 Linden St 
Neighborhood: Hayes Valley San Francisco, CA 94102 
z (415) 262-7535 


ia espresso came out the baristas were looking around for him as if he just made off with their money, they 
foot concerned with how far ha had gone and then explained to me that after the espresso is pulled there's 


@5. Ritual Coffee Roasters DDO 25 cove 

Category 1026 Valencia St 

Neighborhood Mist ion San Fi rn. -NA 
(415)641-1 


» Depending on your tasie, ihe hipster vibe can De a plus ora minus Personally, lve never hac the baristas be 
~ anything but polite and professional. Rating basad entirely on espressos and capuccinos—! havent had 


图 15-8 一 张 来 自 yelp. com 网 站 的 旧金山 咖啡 馆 列 表 


正如 前 面 所 提 到 的 那样 ， 数 据 集成 问题 实际 上 更 为 复杂 ， 因 为 仅 有 一 部 分 数据 是 结构 
化 的 。 例 如 ， 对 于 那些 用 于 构成 Web 中 一 个 主要 结构 化 数据 源 的 表格 ， 其 所 含有 的 模式 
相对 较 少 。 如 果 表 格 的 第 一 行 被 明确 标记 了 (如 图 15-7 所 示 ) ， 那 么 我 们 可 能 知道 每 一 列 
的 标题 。 但 是 ,通常 很 难 判 断 第 一 行 (或 者 开始 几 行 ) 是 否 是 标题 行 。 模 式 中 的 其 他 一 些 
元 素 ， 如 表 名 、 数 据 类 型 等 ， 却 是 根本 不 存在 的 。 表 格 所 表示 的 关系 通常 是 根据 其 上 下 文 
内 容 或 者 读者 所 看 到 的 信息 来 确定 的 。 有 时 ， 数 据 类 型 可 以 通过 数据 本 身 推断 出 来 。 而 
Web 中 的 列表 则 面临 着 其 他 一 些 挑战 。 如 图 15-9 所 示 ， 列 表 中 的 每 一 项 代表 了 表格 中 的 
一 整 行 。 为 了 将 列表 转化 为 表格 ， 我 们 需要 将 每 个 列表 项 分 割 成 多 个 单元 ， 而 这 是 一 个 相 
当 复 杂 的 工作 。 此 外 ， 列 表 中 通常 没有 带 有 属性 名 称 的 标题 行 。 

我 们 将 数据 集成 所 面临 的 挑战 划分 为 3 部 分 : 定位 Web 中 的 数据 、 将 数据 导入 某 个 结 
构 化 的 工作 空间 中 ， 以 及 将 多 个 数据 源 的 数据 合并 。 


15. 4. 1 发 现 Web 中 的 结构 化 数据 


数据 集成 的 第 一 步 是 定位 Web 中 相关 的 结构 化 数据 。 数 据 发 现 的 过 程 通常 以 提交 关 
键 字 查 询 开 始 ， 但 是 ， 搜 索引 擎 通常 是 用 来 对 大 规模 文本 文件 进行 索引 ， 并 且 事 实证 明 它 
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图 15-9 一 个 包含 有 VLDB2008 的 部 分 程序 委员 会 成 员 的 HTML 列表 


在 搜索 表格 或 者 列表 方面 效果 很 差 。 用 户 无 法 告诉 搜索 引擎 它 只 对 结构 化 数据 感 兴 趣 。 如 
果 没 有 特殊 支持 ， 唯 一 可 行 的 方法 就 是 逐个 浏览 搜索 结果 以 找 出 那些 含有 结构 化 数据 的 
页 面 。 

为 了 使 搜索 引擎 能 够 专门 用 来 搜索 结构 化 数据 ， 我 们 需要 找 出 哪些 Web 页 面 中 含有 
高 质量 的 结构 化 数据 并 将 其 在 Web 索引 中 进行 标注 (或 者 为 这 些 文档 创建 一 个 单独 的 存 
储 数据 仓库 ) 。 而 这 个 网 页 发 现 的 问题 相当 具有 挑战 性 ， 因 为 许多 Web 页 面 设计 者 都 使 用 
HTML 表格 来 使 非 结 构 化 数据 的 格式 规范 化 (如 ， 论坛 应 答 、 日 历 、 目 录 等 )。 事 实 上 ， 
Web 中 只 有 不 到 1% 的 HTML 表格 含有 高 质量 的 表格 数据 。 

一 旦 获得 了 大 规模 的 结构 化 数据 ， 在 对 结果 进行 排序 时 我 们 需要 考虑 查询 中 的 关键 字 
在 网 页 中 出 现 的 位 置 。 两 个 重要 的 位 置 匹配 分 别 是 标题 行 和 主题 列 。 如 果 关 键 字 出 现在 可 
能 含有 属性 名 称 的 标题 行 中 ， 那 么 需要 给 该 网 页 更 大 的 权重 ， 因 为 所 命中 的 属性 名 与 表格 
中 的 所 有 行 都 相关 。 例 如 ， 如 果 我 们 搜索 短语 “country olympic medals” (国家 奥林匹克 人 金 
牌 ) ， 那 么 一 个 名 为 “Olympic medals” 的 列 将 比 其 他 出 现 该 短语 的 位 置 更 有 价值 。Web 
中 大 部 分 的 表格 都 有 一 个 主题 列 ， 它 是 一 个 含有 该 表格 所 涉及 的 实体 (如 国家 ) 的 列 。 如 
果 我 们 搜索 “population zimbabwe”( 人 口 津巴布韦 )， 那么 ,在 主题 列 中 含有 “Zimb- 
abwe” 一 词 的 表格 将 比 在 其 他 地 方 出 现 “Zimbabwe” 的 表格 要 更 有 价值 。 后 一 种 表格 或 
许 的 确 是 有 关 城 市 的 并 含有 其 所 在 国家 的 一 个 列 ， 或 者 是 用 来 描述 玉米 的 不 同 变种 并 包含 
一 个 描述 其 生长 国家 的 列 。 主 题 列 一 般 位 于 表格 的 左边 ( 当然， 除了 希 伯 来 语 和 阿拉 伯 语 
中 的 表格 之 外 ) ， 但 是 通过 算法 来 找 出 主题 列 ( 当 它 确实 存在 时 ) 仍然 非常 困难 。 更 不 用 
说 ， 像 任意 的 排名 标志 一 样 ， 这 些 仅 仅 是 用 来 和 与 最 终 排 名 相关 的 其 他 因子 一 起 使 用 的 标 
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志 。 一 般 来 说 ， 任 何 能 够 恢复 表格 语义 的 预 处 理 ， 如 用 来 描述 表格 中 所 展示 的 对 象 集 和 关 
系 集 的 短语 ， 都 对 排名 非常 有 用 。 尤 其 是 ， 表 格 中 所 隐藏 的 关系 通常 很 难 被 发 现 。 例 如 ， 
一 个 用 来 描述 不 同 国家 的 咖啡 产量 的 表格 中 的 列 标题 可 能 是 name，2001，2002，…， 
2010。 那 么 ， 我 们 需要 对 其 进行 更 深层 次 的 分 析 以 便 推断 出 列 2001 描述 的 是 列 Name 中 
所 包含 的 国家 在 2001 年 的 咖啡 产量 。 


15. 4.2 导入 数据 


一 旦 定位 好 了 数据 位 置 ， 我 们 需要 将 其 导入 到 一 个 工作 空间 中 去 。 在 该 工作 空间 中 ， 
数据 将 会 以 表格 的 形式 存放 并 配 以 适当 的 列 标题 。 在 某 些 情况 下 ,例如 ， 对 于 如 图 15-7 
所 示 的 表格 ， 我 们 可 能 觉得 很 幸运 ， 因 为 HTML 很 好 地 反映 了 数据 的 结构 。 然 而 ， 对 如 
图 15-8 所 示 的 情况 ， 数 据 虽 然 是 结构 化 的 但 是 却 被 组 织 成 卡片 的 形式 ， 其 中 每 个 属性 出 现 
在 卡片 中 的 某 个 特定 位 置 。 我 们 需要 掌握 卡片 的 内 部 结构 以 便 提取 出 每 张 卡片 的 不 同 部 
分 。 同 样 ， 如 果 要 导入 某 个 列表 中 的 数据 ， 那 么 首先 需要 将 每 个 列表 分 割 成 一 个 由 多 个 单 
元 组 成 的 行 。 接 下 来 ， 我 们 来 讨论 导入 数据 的 两 种 方式 : 全 自动 化 方式 和 用 户 监督 方式 。 

从 卡片 或 者 列表 中 提取 数据 行 的 全 自动 化 技术 需要 考虑 数据 的 多 个 方面 ， 如 标点 符 
号 、 数 据 类 型 变化 以 及 识别 常 出 现在 Web 中 其 他 地 方 的 实体 等 。 需 要 注意 的 是 ， 单 独 考 
虑 这 些 线索 中 的 任何 一 个 都 无 法 得 到 满意 的 结果 ， 并 且 即 使 将 它们 放 在 一 起 考虑 也 不 一 定 
有 效 。 在 图 15-9 中 ， 标 点 符号 将 机 构 中 各 程序 委员 会 成 员 的 姓名 分 隔 开 来 。 然 而 ， 机 构 
内 的 标点 符号 在 各 列表 项 之 间 却 是 不 一 致 的 。 大 部 分 的 列表 项 都 用 一 个 逗号 来 分 隔 机 构 名 
称 和 国家 名 ， 但 是 在 某 些 情况 下 〈 如 加 利 福 尼 亚 大 学 、 洛 杉 矶 等 ) ， 一 个 额外 的 逗号 将 会 
误导 导 人 和 人 器， 使 之 发 生 错 误 。 为 了 消除 这 种 歧义 性 ， 导 入 算法 可 以 将 整个 列表 看 做 是 一 个 
整体 。 在 我 们 的 例子 中 ， 通 过 将 整个 列表 看 做 一 个 整体 ， 发 现 右 括号 前 面 总 有 一 个 国家 
名 ， 因 此 可 以 使 用 这 个 标志 来 匹配 机 构 中 的 余下 部 分 。 另 一 个 非常 有 效 的 启发 式 方法 就 
是 ,将 出 现在 Web 表格 单元 中 的 字符 串 当做 一 个 标志 ， 而 这 些 字符 串 所 代表 的 是 实体 。 
尤其 是 ， 如 果 某 个 特定 的 字符 串 本 身 (如 加 利 福 尼 亚 大 学 、 洛 杉 矶 等 ) 出 现在 许多 Web 
表格 单元 中 ， 那 么 它 可 以 作为 一 个 很 好 的 标志 用 来 表示 现实 世界 中 的 某 个 实体 。 我 们 在 第 
9 章 中 讨论 过 的 包装 器 构造 技术 在 这 里 同样 适用 。 

用 户 监督 技术 是 基于 生成 的 导入 模式 来 实现 的 ， 这 些 模式 由 用 户 参 与 并 给 出 类 似 于 训 
练 包装 器 的 技术 ( 详 见 9.3 节 ) 。 考 虑 图 15-8 中 的 数据 ， 用 户 从 选择 “Four Barrel Coffee” 
这 一 名 称 开 始 ， 并 将 其 粘贴 到 工作 空间 最 左边 的 单元 内 。 该 系统 将 会 尝试 着 从 这 个 例子 中 
归纳 出 相应 的 模式 ， 并 提取 出 其 中 的 咖啡 屋 名 称 ， 例 如 ，Sightglass、Ritual 等 。 通 过 这 种 
方式 ， 系 统 将 会 生成 额外 的 数据 行 。 接 下 来 ， 用 户 将 选 出 Four Barrel Coffee 的 地 址 并 将 其 
粘贴 到 第 二 栏 中 ， 即 名 称 一 栏 的 右边 。 同 样 ， 他 将 会 对 电话 号 码 和 评论 数量 进行 复制 并 将 
其 分 别 粘贴 到 第 三 栏 和 第 四 栏 。 而 系统 将 会 从 这 些 例子 中 归纳 出 对 应 的 模式 并 用 相应 的 数 
据 来 填写 表格 的 其 他 行 。 


列 标题 


在 将 数据 导入 表格 后 ， 如 果 新 生成 的 表格 没有 列 标题 ， 那 么 我 们 需要 为 其 设置 列 标 
题 。 在 某 些 情形 下 ， 如 电话 号 码 或 者 地 址 ， 可 以 对 列 中 的 值 进行 分 析 然 后 设置 一 个 合适 的 
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标题 。 在 其 他 情形 下 ， 可 以 查阅 一 个 含有 列 标题 的 表格 资源 库 。 为 了 给 列 C 找 出 合适 的 标 
题 ， 首 先 查询 出 那些 内 容 与 列 C 的 值 大 部 分 重合 的 列 C`"， 然 后 从 中 选择 最 常见 的 列 标题 
作为 列 C 的 标题 。 例 如 ， 在 图 15-9 所 示 的 列表 中 ， 在 观察 到 最 后 一 列 的 值 与 其 他 名 为 
country (HA) 的 列 的 值 有 很 高 的 重合 率 之 后 ， 我 们 用 同样 的 列 标题 “country” 来 作 
为 最 后 一 列 的 标题 。 

另 一 种 设置 标题 的 技术 是 对 Web 进行 挖掘 以 找 出 特定 的 文本 模式 。 例 如 ，“countries 
such as France, Italy, and Spain (法 国 ， 意 大 利 ， 西 班 牙 等 国家 ) ”格式 的 短语 在 Web 中 
出 现 得 非常 频繁 。 从 这 个 句子 中 ， 我 们 将 可 以 挖掘 出 一 个 具有 很 高 可 信 度 的 结论 ， 即 
France 是 一 个 国家 。 通 过 同样 的 方法 ， 我 们 将 能 够 推导 出 France 是 一 个 欧洲 国家 或 者 甚至 
是 一 个 西欧 国家 。 如 果 同 一 种 类 别 (如 国家 ) 适用 于 某 特定 列 的 大 部 分 值 ， 那 么 我 们 就 可 
以 将 该 类 别 作 为 这 个 列 的 一 个 标签 。 一 般 来 说 ,我们 愿意 为 列 贴 上 任何 有 助 于 在 响应 相关 
查询 时 便于 检索 到 它 本 身 的 标签 。 


15.4.3 合并 多 个 数据 集 


一 旦 获得 了 数据 ， 在 合并 多 个 数据 源 的 过 程 中 主要 存在 着 两 种 挑战 。 由 于 数据 源 集合 
非常 巨大 ， 所 以 第 一 个 挑战 就 是 找 出 你 的 数据 将 要 与 什么 数据 进行 合并 。 由 于 数据 并 非 总 
是 完全 结构 化 的 ， 所 以 第 二 个 挑战 就 是 规定 如 何 合 并 这 些 数据 。 

为 了 找 出 相关 数据 ， 我 们 需要 考虑 两 种 情况 : 是 通过 并 操作 来 添加 更 多 的 行 ， 还 是 通 
过 连接 操作 来 添加 更 多 的 列 。 为 了 在 表格 7 中 添加 更 多 的 行 ， 系 统 需要 找 出 与 了 含有 相同 
列 的 表格 ， 即 使 其 列 标题 之 间 没 有 完全 匹配 也 无 所 谓 。 为 了 找 出 更 多 的 列 ， 系 统 首 先 需 要 
找 出 了 中 所 有 可 能 进行 连接 操作 的 列 ， 然 后 找 出 其 他 的 至 少 含有 一 个 可 连接 列 的 表格 。 例 
如 ， 为 了 找 出 能 够 与 图 15-7 中 的 咖啡 数据 相连 接 的 表格 ， 系 统 将 首先 假定 含有 咖啡 名 称 
的 列 是 一 个 可 能 的 连接 列 ， 然 后 再 搜索 其 他 含有 相 重 倒 值 的 表格 。 

为 了 规定 如 何 连接 这 些 数据 ， 我 们 可 以 再 次 采用 按 例 操 作 的 原则 。 考 虑 这 样 一 个 任 
务 ， 在 将 图 15-7 的 咖啡 数据 和 图 15-8 的 数据 导 人 之 后 ， 我 们 需要 将 两 者 连接 起 来 。 用 户 
将 在 由 图 15-7 的 数据 生成 表格 中 标示 出 含有 值 “ Ritual Coffee” 的 单元 格 ， 并 将 其 拖 放 到 
由 图 15-8 的 数据 所 生成 表格 的 相应 单元 格 中 。 用 户 通 过 这 种 方式 告知 系统 他 想 要 连接 哪 
些 列 。 用 户 也 可 以 将 “Ritual Coffee” 所 在 行 的 其 他 列 拖 放 到 表格 中 适当 的 行 ， 以 此 来 表 
明 被 连接 的 表格 中 哪些 列 应 该 保留 。 系 统 能 够 从 这 个 例子 中 归纳 出 相应 的 模式 并 对 其 他 行 
进行 同样 的 处 理 。 


15.4.4 重用 他 人 工作 成 果 


正如 我 们 所 考虑 的 Web 数据 集成 任务 一 样 ， 我 们 需要 牢 牢 记 住 ,许多 人 都 在 试图 访 
问 相同 的 数据 源 并 执行 相似 的 或 者 完全 相同 的 任务 。 如 果 我 们 能 够 利用 许多 人 共同 工作 的 
成 果 ， 那 么 就 可 以 开发 出 强 有 力 的 技术 用 以 管理 Web 中 的 结构 化 数据 。 例 如 ， 当 某 个 人 
正 试图 从 一 个 网 页 中 提取 出 一 个 结构 化 数据 集 并 将 其 导入 到 一 张 电子 表格 或 者 数据 库 中 
时 ,我 们 可 以 将 其 当做 一 个 标志 用 来 标明 该 数据 集 是 一 个 可 用 的 数据 集 并 记录 他 所 设置 的 
电子 表格 名 称 和 列 标题 。 当 某 人 正 手动 地 合并 两 个 数据 集 时 ,我 们 可 以 推断 出 这 两 个 源 是 
相互 关联 的 ， 并且 用 于 连接 的 两 个 列 出 自 同 一 个 领域 ， 即 使 这 两 个 列 并 非 完 全 一 致 。 当 某 


第 15 章 Web 数据 集成 289 





人 正 将 一 个 HTML 列表 转换 为 一 个 表格 时 ， 尽 管 其 数据 会 随 着 时 间 有 所 变化 ， 但 我 们 仍然 
可 以 记录 这 个 操作 以 便 将 来 使 用 。 并 且 ， 该 转换 方法 可 能 同样 适用 于 Web 中 其 他 具有 相 
似 特 性 的 列表 。 当 然 ， 使 这 些 启发 式 方法 有 效 的 关键 就 在 于 ， 记 录 大 量 用 户 的 动作 并 同时 
保护 个 人 隐私 问题 。 基 于 云 的 数据 管理 工具 可 以 提供 这 种 服务 ， 因 为 它们 以 日 志方 式 同时 
记录 许多 用 户 的 活动 情况 。 


15.5 “ 即 付 即 用 ”数据 管理 


Web 数据 集成 是 “ 即 付 即 用 ”( pay-as-you-go) 数据 管理 的 极端 例子 。 与 书 中 目前 为 
止 所 描述 的 数据 集成 系统 相反 ,“ 即 付 即 用 ”系统 试图 避 开 含有 创建 中 介 模 式 和 源 描 述 过 
程 的 初始 化 设置 阶段 。 相 反 ， 其 目标 是 提供 一 个 能 对 大 量 异 构 数据 提供 有 效 服务 的 同时 只 
需要 极 少 的 前 期 准备 工作 的 系统 。 下 面 的 例子 展示 了 其 动机 的 不 同类 型 的 应 用 场景 。 


例 15.2 考虑 一 个 非 营利 性 组 织 的 例子 ， 该 组 织 正 试图 收集 有 关 世 界 水 资源 的 数据 。 
首先 ， 该 组 织 中 的 志愿 者 将 获得 一 批 数 据 源 (通常 是 电子 表格 或 者 CSV 文件 格式 ) 。 他 们 将 
必须 面 对 其 中 存在 的 多 个 挑战 。 首 先 ， 他 们 对 这 些 数据 完全 不 熟悉 。 他 们 完全 不 知道 收集 有 
关 水 的 数据 时 所 用 到 的 术语 ， 并 且 他 们 也 不 了 解 这 些 数据 源 的 内 容 及 其 之 间 的 关系 。 其 次 ， 
一 部 分 数据 源 可 能 是 元 余 的 、 过 时 的 或 者 是 已 经 被 别人 所 用 但 从 而 没有 多 大 用 人 处 的 。 

因此 ， 创 建 数据 集成 应 用 的 第 一 步 是 以 极其 非 结 构 化 的 方式 来 探索 数据 。 他 们 只 有 在 
熟悉 了 数据 之 后 才能 够 创建 中 介 模式 。 因 此 ， 他 们 将 仅仅 对 其 认为 有 用 的 数据 源 集合 创建 
相应 的 语义 映射 。 当 然 ， 他 们 也 将 会 尽力 清洗 数据 并 在 需要 的 地 方 对 引用 信息 进行 调整 ， 
使 之 相 一 致 。 <<< 


在 数据 已 经 被 那些 想 要 相互 协作 的 独立 专家 收集 起 来 的 领域 中 ， 上 述 的 场景 是 非常 党 
见 的 。 我 们 所 观察 到 的 一 个 关键 问题 是 ， 要 求 志愿 者 提前 完成 数据 集成 系统 的 设置 工作 可 
能 是 不 现实 的 或 者 甚至 是 不 可 能 的 。 相 反 ， 系 统 应 该 允许 志愿 者 仅 在 那些 只 要 付出 就 肯定 
会 有 回报 的 地 方 花费 精力 即 可 ， 同时， 即使 所 有 数据 源 还 未 集成 ， 系 统 也 应 该 能 提供 相应 
的 值 。 

数据 空间 系统 已 经 作为 一 个 用 来 支持 “ 即 付 即 用 ”数据 管理 系统 的 概念 被 提出 。 显 
然 ， 这 种 系统 有 两 个 主要 的 组 成 部 分 : 在 没有 或 者 极 少 的 人 为 干预 的 情况 下 进行 自我 引导 
以 提供 有 效 服 务 ; 指导 用 户 逐 步 改善 语义 的 连贯 性 。 

对 于 第 一 个 组 成 部 分 ， 其 中 有 用 的 一 个 步骤 是 提供 带 有 有 效 数据 可 视 化 的 大 规模 关键 
字 搜 索 功能 。 更 进一步 ， 数 据 空间 系统 应 能 够 使 用 我 们 在 自动 模式 匹配 、 数 据 源 聚 类 以 及 
元 数据 自动 提取 中 所 描述 过 的 技术 。 

第 二 个 组 成 部 分 所 面临 的 挑战 是 如 何 将 用 户 的 注意 力 引导 到 有 利于 改善 系统 元 数据 的 
地 方 。 元 数据 的 改善 可 以 使 模式 匹配 更 为 有 效 ， 增 强 引 用 归 一 效果 ， 以 及 改善 信息 提取 的 
结果 。 正 如 我 们 前 面 所 描述 的 那样 ， 重 用 他 人 的 工作 成 果 以 及 众 包 一 些 任务 是 两 个 可 以 利 
用 的 很 有 效 的 方法 。 其 中 的 一 些 思想 将 在 下 一 章 讨论 。 


参考 文献 注释 
Web 已 经 成 为 除 研究 之 外 的 另 一 个 数据 集成 的 主要 推动 力 。 事 实 上 ， 本 书 作者 初期 工 


[394 | 


[395] 
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作 的 灵感 来 源 是 Web 数据 集成 [ 181，323 ，381 ] [229] 中 给 出 了 一 个 有 关 早 期 Web PR 
据 集 成 和 管理 研究 的 调研 报告 。[37，199，244 ，361 ，381 ] 是 一 些 关于 如 何 将 深层 网 络 源 
中 的 信息 集成 的 早期 的 工作 成 果 ， 而 该 领域 内 更 多 的 近期 研究 工作 成 果 则 在 [294 ，296 ， 
297, 581] 中 论述 。Junglee 和 Netbot 是 垂直 搜索 领域 内 最 早 的 两 家 创业 公司 ， 它 们 主要 关 
注 工作 职位 搜索 以 及 集成 购物 网 站 中 的 数据 。 后 来 ， 垂 直 搜 索引 苟 出 现在 了 其 他 一 些 具 有 
商业 价值 的 领域 内 ， 如 机 票 和 其 他 类 型 的 分 类 广告 等 。 

有 多 篇 论文 给 出 了 对 深层 网 络 大 小 的 估计 [70，409]。 在 [163] 中 ， 作 者 描述 了 用 于 
估计 隐藏 网 络 中 某 个 给 定数 据 库 大 小 的 方法 。 我 们 在 浅 层 化 深层 网 络 部 分 所 描述 的 工作 是 
基于 Google 搜索 引擎 中 的 浅 层 化 工作 [410] 来 介绍 的 。 根 据 [410] ， 他 们 的 系统 能 够 从 数 
百 万 个 表单 、 数 百 个 领域 以 及 超过 40 多 种 语言 中 将 网 页 浅 层 化 。 在 写 Google 搜索 引擎 时 ， 
平均 每 秒 内 ， 它 所 浅 层 化 了 的 网 页 都 会 作为 1000 多 个 查询 的 前 10 个 结果 被 返回 。 从 这 个 
工作 中 我 们 所 得 到 的 主要 经 验 教 训 之 一 就 是 ， 与 常见 的 查询 相 比 ， 深 层 网 络 内容 对 于 长 尾 
式 的 查询 更 为 有 用 ， 因 为 那些 常见 的 查询 从 浅 层 网 络 中 就 可 以 获取 足够 的 数据 信息 。 作 为 
浅 层 化 网 页 技术 之 一 ， 有 关 和 迭代 疏 取 技术 的 早期 工作 包括 [55，106，321，467 ] 。 与 此 相 
关 的 是 ,在 [550] 中 ， 作 者 描述 了 一 种 新 技术 ， 该 技术 将 文本 作为 输入 并 自行 决定 如 何 用 
这 个 文本 来 填写 HTML 表单 中 的 字段 。 

AK Web 表格 的 调查 工作 始 于 [247，565 ] 。[ 101，102] 中 阐述 了 最 早 的 有 关 Web 中 
完整 的 HTML 表格 集合 的 调查 工作 。 该 工作 表明 ， 即 使 是 只 考虑 英语 这 一 种 语言 ，Web 中 
所 包含 的 高 质量 HTML 表格 就 已 超过 了 15 000 万 种 。 作 者 将 这 些 表格 收集 起 来 并 存 人 一 个 
语料库 中 ， 然 后 构建 了 一 个 搜索 引擎 并 加 入 了 一 些 我 们 在 本 章 中 所 描述 过 的 排名 方法 。 此 
外 ， 它 们 还 显示 了 这 些 表格 的 模式 所 构成 的 集合 是 一 个 独一无二 的 资源 。 例 如 ，Web 中 列 
标题 的 别名 可 以 从 这 个 集合 中 挖掘 出 来 并 用 做 模式 匹配 的 一 个 组 成 部 分 。 在 [391] 中 ， 作 
者 描述 了 一 种 将 表格 单元 映射 到 YAGO 本 体 对 象 的 算法 ， 同 时 还 提出 了 YAGO 中 列 的 分 类 
以 及 表格 中 列 对 之 间 的 二 元 关系 。 在 1558] 中 ， 作 者 阐述 了 一 种 Web 短语 挖掘 技术 ， 该 技 
术 通 过 表格 单元 的 值 (如 15.4.2 节 中 所 述 ) 来 推测 出 列 的 标签 和 列 对 之 间 的 关系 。 而 
[207] 则 描述 了 有 关 将 HTML 列表 分 割 成 表格 的 技术 。 

大 规模 表格 集合 查询 则 面临 着 新 的 挑战 。 一 方面 ， 用 户 应 该 能 够 像 他 们 在 数据 库 系统 
中 所 做 的 那样 指定 查询 的 结构 。 另 一 方面 ， 用 户 无 法 知晓 数 百 万 个 表格 的 模式 ， 因 此 进行 
关键 字 查询 显得 更 为 合适 。 在 [483 ] 中 ， 作 者 提出 了 一 种 查询 语言 ， 该 语言 既 允 许 用 户 指 
定 查询 的 部 分 结构 同时 也 保留 了 关键 字 查 询 的 优点 。 在 [509] 中， 用 户 描述 了 一 种 在 语 料 
库 中 为 关键 字 查 询 添 加 能 映射 到 表格 的 标注 方法 。 这 样 的 查询 标注 器 是 通过 对 查询 日 志和 
表格 集 进 行 学 习 而 创建 出 来 的 。 当 一 个 新 的 查询 到 达 时 ， 标 注 器 能 够 高 效 地 提出 所 有 可 能 
的 标注 ， 其 中 每 个 均 带 有 一 个 置信 度 值 。 而 在 [413 ] 中 ， 作 者 阐述 了 根据 表格 属性 名 来 将 
大 规模 的 模式 按 领域 聚 类 的 技术 。 

DBLife[ 170，185 ] 介 绍 了 我 们 所 描述 过 的 创建 主题 门户 网 站 的 方法 学 。 在 [170] 中 ， 
作者 表明 ， 与 对 Web 进行 挖掘 以 找 出 所 有 与 主题 相关 的 网 站 的 方法 相 比 ， 从 多 个 精 选 网 
站 开始 的 方法 更 为 有 效 。 早 期 的 主题 网 站 包括 [356，417，461 ] 。 正 如 我 们 所 讨论 过 的 ， 
主题 门户 网 站 为 社 群 成 员 提 供 了 一 个 以 众 包 方式 为 门户 网 站 贡献 数据 并 改善 其 内 容 的 机 
会 。[422] 描 述 了 吸引 用 户 为 网 站 贡献 数据 的 方法 。[113，169，421 ] 中 阐述 了 同时 允许 
算法 和 专业 人 员 为 构建 结构 化 的 门户 网 站 做 出 贡献 的 技术 。 
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毫 无 疑问 ， 为 购物 网 站 构建 和 维护 商品 目录 的 问题 引起 了 巨大 的 商业 兴趣 。 构 建 一 个 
这 样 目 录 的 过 程 充满 了 挑战 ， 因 为 商品 分 类 学 所 涉及 的 范围 非常 广泛 ， 并 且 商 品 的 区 分 通 
常 是 根据 其 不 相干 的 属性 (例如 ， 配 件 ) 来 完成 ， 而 这 使 得 同一 商品 的 引用 很 难 统一 起 
来 。 在 [460] 中 ， 作 者 描述 了 一 种 新 型 系统 ， 它 将 Web 上 的 产品 当做 输入 并 用 一 种 不 断 进 
化 的 商品 分 类 法 来 使 引用 归 一 化 。 

[194，314-316，553 ，577] 提 出 了 多 种 工具 来 帮助 用 户 简便 地 创建 聚合 (mashup ) 。 
用 于 展示 数据 导入 和 集成 的 方法 是 基于 Karma 系统 和 CopyCat 系统 [327，553 ] 提出 的 。 
CopyCat 系统 还 主张 不 要 将 数据 集成 的 设置 阶段 和 查询 阶段 分 开 。 

Google Fusion Tables[ 261 | 是 一 种 使 Web 数据 集成 更 为 便捷 的 基于 云 的 系统 。Fusion 
Tables 用 户 能 够 上 传 数据 集 ( 如 CSV 文件 或 电子 表格 )， 并 与 他 们 的 协作 者 共享 这 些 数据 
或 者 将 其 公开 。 他 们 可 以 很 方便 地 创建 出 可 和 能 入 到 Web 页 面 中 的 数据 可 视 化 ， 并 将 他 人 
公开 的 数据 集合 并 起 来 。Fusion Tables 以 及 其 他 类 似 的 工具 (如 Tableau Software [536], 
Socrata [527], InfoChimps [317] 等 人 ) 通常 被 那些 掌握 专业 技术 相对 较 少 但 想 要 将 数据 
公开 的 个 人 所 使 用 。 尤 其 是 ， 新 闻 工 作者 相当 喜欢 Fusion Tables， 他 们 利用 Fusion Tables 
在 其 新 闻 故 事 中 添加 数据 以 及 交互 式 的 可 视 化 效果 。 

当 对 Web 数据 进行 处 理 时 ， 我 们 所 面临 的 一 个 挑战 就 是 ， 数 据 经 常 从 一 个 源 中 复制 
到 另 一 个 源 中 。 因 此 ,在 许多 网 站 中 均 看 到 某 一 个 特定 数据 的 事实 并 不 能 证 明 独 立 数据 源 
WARE. Solomon ( 所罗门 ) 项 目 [79，190] 开 发 出 了 用 于 检测 数据 源 之 间 的 复制 关系 的 
技术 ， 因 而 找 出 了 独立 出 现 的 事实 的 真实 数量 。Web 中 的 宛 余 性 同时 也 是 一 种 优势 。 
[473 ] 中 的 工作 所 涉及 的 Web 网 站 包装 器 是 通过 以 下 事实 来 发 所 结构 化 内 容 的 : 1) 每 个 
网 站 用 相同 的 模板 发 布 了 许多 网 页 ; 2) 许多 对 象 都 在 多 个 网 站 中 同时 提 有 及。 因此， 为 某 
个 网 站 创建 的 精准 的 包装 器 可 以 用 来 提高 含有 重 本 内 容 的 网 站 的 准确 度 。 

[233 286 ] 将 数据 空间 系统 描述 成 一 种 用 来 统一 多 个 不 同 数据 库 研 究 成 果 的 新 型 抽象 
技术 。 一 些 早期 的 数据 空间 系统 是 个 人 信息 管理 系统 的 产物 [91，191，504]j。[333 ] 的 作 
者 描述 了 一 种 决策 理论 框架 ， 用 来 随 着 时 间 的 推移 逐步 改进 数据 空间 。 特 别 地 ， 他 们 展示 
了 如 何 使 用 决策 理论 来 选择 一 个 最 有 益 的 问题 提交 给 人 类 ， 以 改善 数据 空间 的 语义 关系 。 
这 个 决策 是 基于 答案 对 系统 所 返回 结果 的 质量 有 多 少 改 进 效 果 来 给 出 的 。 

[162 ] 的 作者 展示 了 如 何 通过 为 某 个 给 定 的 数据 源 集合 自动 创建 中 介 模 式 并 计算 模式 
和 源 之 间 的 近似 映射 关系 来 引导 数据 空间 系统 。 他 们 指出 ， 在 引导 过 程 中 创建 一 个 概率 中 
介 模 式 将 会 更 有 利于 引导 ， 这 个 概率 中 介 模 式 是 一 系列 可 选 的 中 介 模 式 的 集合 ， 其 中 每 一 
个 模式 均 带 有 一 个 与 之 相关 的 概率 。 然 后 ， 关 键 字 查 询 将 按照 每 一 个 中 介 模 式 分 别 进 行 重 
写 。 通 过 对 每 个 中 介 模 式 的 概率 进行 进一步 加 权 ， 我 们 可 以 计算 出 每 个 答案 的 概率 值 。 

最 近 有 一 个 工作 正在 尝试 着 构建 一 个 Web 知识 库 。 例 如 ， 控 掘 Web Pan “X in YA 
Z” 格 式 的 语言 模式 (通常 称 为 赫 斯 特 模式 [299]) 可 以 生成 一 个 (对 ，Y) 的 数据 库 ， 其 
中 了 是 的 一 个 实例 。 例 如 ， 通 过 Web 中 的 模式 (如 “城市 如 柏林 、 巴 黎 以 及 伦敦 等 ”) ， 
我 们 可 以 推断 出 柏林 、 巴 黎 以 及 伦敦 是 城市 并 且 甚 至 是 欧洲 城市 。 通 过 对 Web 中 范围 广 
泛 的 内 容 进 行 备 份 ， 这 些 知 识 库 将 会 以 较 细 的 粒度 覆盖 许多 领域 的 知识 ， 但 仍 可 能 含有 许 
多 不 正确 的 事实 。 而 且 ， 这 样 一 个 知识 库 的 覆盖 范围 与 文化 息息相关 : 柏林 、 巴 黎 以 及 伦 
敦 也 可 以 看 做 是 重要 的 欧洲 国家 首都 的 实例 。 

众 包 常常 可 以 为 构建 此 类 知识 库 提供 许多 的 便利 。 详 见 [186 | 中 一 篇 对 该 领域 内 2011 
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年 及 其 之 前 的 研究 工作 的 调研 报告 。 

由 TextRunner 系统 [54 | 所 倡导 的 开放 信息 抽取 (Open information extraction, OpenlE) 
是 一 组 用 于 挖掘 实体 之 间 关 系 (尤其 是 二 元 关系 ) 而 无 须 事先 指定 将 要 抽取 的 关系 或 关系 
集 的 技术 。 例 如 ，OpenlE 技术 能 够 抽取 出 这 样 的 事实 ， 如 爱 因 斯 坦 出 生 于 乌 尔 姆 或 者 谷 
歌 总 部 位 于 加 州 山 景 城 。OpenlE 系统 使 用 自 监 督 机 器 学 习 技 术 来 同时 抽取 出 关系 的 名 称 
及 其 两 个 参数 ， 其 中 的 自 监 督 机 器 学 习 技术 使 用 了 启发 式 方法 来 生成 用 以 训练 提取 器 的 带 
标签 的 数据 。 例 如 ，TextRunner 系统 使 用 一 个 较 小 的 手写 规则 集合 来 启发 式 地 对 宾 州 树 库 
中 的 句子 标注 训练 样 例 。Nell 系统 展示 了 另 一 种 结构 ， 用 于 不 断 地 从 尚未 标注 的 数据 中 迅 
速 地 学 习 许 多 分 类 器 ， 并 将 这 些 分 类 器 的 学 习 过 程 耦合 起 来 以 提高 精确 性 。 有 关 该 领域 的 
其 他 工作 包括 [303 ，580] 。 

第 二 种 构建 Web 知识 库 的 方法 是 扩展 维基 百科 ， 而 维基 百科 本 身 则 是 用 许多 志愿 者 
贡献 的 知识 来 创建 的 。YAGO 系统 [534 | 用 从 维基 百科 中 提取 出 来 的 事实 对 WordNet 本 体 
[431 进行 扩展 ， 并 且 该 方法 具 很 高 的 精确 度 。YAGO 中 的 二 元 关系 集 是 事先 定义 好 了 的 
并 且 相 对 较 小 。 在 [578 中， 作者 介绍 了 一 个 使 用 了 维基 百科 信息 框 的 Kylin 系统 ， 其 中 ， 
维基 百科 信息 框 是 一 个 由 众多 维基 百科 页 面 中 所 展示 出 来 的 事实 构成 的 集合 。Kylin 将 这 
些 事实 用 做 训练 数据 以 便 学 习 如 何 从 维基 百科 页 面 中 提取 更 多 的 事实 ， 从 而 不 断 地 扩大 维 
基 百 科 信 息 框 的 覆盖 范围 。 在 [579] 中 ， 他 们 展示 了 如 何 对 维基 百科 本 身 进 行 扩 展 。 
[435 | 的 作者 利用 与 Freebase 本 体 相关 的 实体 对 来 从 (维基 百科 的 ) 正文 中 找 出 所 有 与 这 
些 实体 对 相关 的 模式 。 从 正文 的 这 些 模式 中 ， 他 们 的 系统 学 会 了 如 何 提取 出 更 多 的 具有 相 
同 关系 的 实体 对 。DBPedia[ 42 ] 对 维基 百科 的 信息 框 进行 提取 并 生成 一 个 结构 化 形式 的 
查询 。 
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关键 字 搜 索 : 按 需 集成 





通常 ， 数 据 集成 是 用 来 构建 用 于 提供 交叉 源 信息 访问 的 应 用 (不管 它 是 基于 Web 的 
还 是 更 为 传统 的 ) ， 或 者 是 为 那些 相对 来 说 较为 熟练 的 用 户 创建 用 于 数据 检索 的 特殊 查询 
接口 。 然 而 ， 近 期 的 一 个 关注 点 是 为 “普通 ”用 户 〈 非 数据 库 专 业 人 员 ) 提供 一 个 用 于 
检索 结构 化 的 、 集 成 的 数据 并 且 被 大 众 所 熟 悉 的 特殊 查询 接口 : 关键 字 搜 索 。 然 而 ， 这 种 
模型 中 的 关键 字 搜 索 与 典型 的 信息 检索 系统 或 者 搜索 引擎 中 的 关键 字 搜 索 相 比 要 复杂 得 
Z: 它 不 仅仅 需要 与 单个 的 文档 或 者 对 象 相 匹配 。 从 直观 上 来 看 ， 一 个 关键 字 项 的 集合 描 
述 了 一 组 用 户 所 感 兴趣 的 概念 。 而 数据 集成 系统 则 负责 找 出 一 种 将 与 这 些 概 念 相关 的 表格 
或 者 元 组 关联 起 来 的 方法 ， 如 通过 一 系列 的 连接 操作 。 

在 本 章 中 ， 我们 将 首先 在 16. 1 节 中 描述 如 何在 结构 化 数据 中 进行 关键 字 搜 索 这 一 抽 
象 问题 ， 然 后 在 16. 2 节 中 介绍 一 些 用 于 返回 排序 结果 的 常用 算法 。 最 后 ， 在 16. 3 Whit 
论 一 些 在 数据 集成 应 用 中 实现 关键 字 搜 索 所 面临 的 问题 。 


16.1 结构 化 数据 中 的 关键 字 搜 索 


在 信息 检索 中 ， 关 键 字 搜索 需要 找 出 一 个 包含 所 有 关键 字 的 文档 。 对 于 关系 型 结构 或 
者 XML 结构 数据 ， 其 目标 通常 是 找 出 与 各 个 关键 字 相 匹配 的 不 同 数据 项 并 返回 能 够 将 这 
些 匹配 项 组 合成 一 个 答案 的 方法 。 

在 结构 化 数据 源 中 应 答 关 键 字 查询 的 常用 方法 是 ， 将 数据 库 表示 成 一 个 展示 数据 项 和 
元 数据 项 关系 的 数据 图 (data graph) 。 图 中 的 节点 代表 属性 值 ， 或 者 在 某 些 情况 下 代表 元 
数据 项 ， 如 属性 标签 或 者 关系 等 。 而 图 中 的 边 则 代表 节点 之 间 概 念 上 的 连接 关系 。 其 中 ， 
对 于 一 个 关系 型 数据 库 管理 系统 ， 这 些 连 接 关系 包括 外 键 、 包 含 以 及 “instance-of” 关 系 。 

一 个 查询 由 一 组 项 构成 。 每 项 均 与 图 中 的 节点 相 匹 配 ， 并 且 得 分 最 高 的 生成 树 〈 树 的 
叶子 节点 与 搜索 项 相 匹配 ) 将 作为 答案 返回 。 目 前 ， 针 对 这 个 问题 已 经 提出 了 各 种 评分 或 
者 排名 模型 ， 这 些 模型 之 间 只 在 语义 和 评估 效率 等 级 方面 存在 着 细微 的 差别 。 

现在 ， 我 们 来 对 数据 图 、 评 分 模型 以 及 用 于 计算 最 高 分 结果 的 基本 算法 进行 更 为 详细 
的 阐述 。 基 本 模型 和 许多 相关 技术 均 被 平等 地 应 用 于 只 有 单一 数据 库 或 者 数据 集成 的 情 
况 。 而 且 ， 只 需要 稍 加 变化 ， 这 些 技 术 就 能 够 用 在 关系 型 数据 库 以 及 XML 或 者 RDF (或 
者 甚至 是 对 象 、 网 络 或 者 层次 型 ) 数据 库 中 。 


16. 1.1 数据 图 


目前 已 经 提出 了 各 种 数据 库 图 表示 法 。 一 种 最 通用 的 方法 是 生成 一 张 由 带 权重 的 节点 
和 带 权 重 的 有 向 边 构成 的 图 。 其 中 节点 可 以 用 来 表示 元 组 、 复 合 对 象 (如 集合 、XML 树 
等 ) 、 属 性 标签 ， 甚 至 是 关系 中 的 特定 属性 值 。 在 某 些 情况 下 ， 这 些 节 点 会 被 赋予 权重 用 
来 表示 其 权威 性 、 可 信和 度 等 。 
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图 中 的 有 向 边 模 拟 了 节点 之 间 的 关系 ， 如 某 个 值 节点 和 男 一 个 代表 集合 或 者 元 组 的 市 
点 之 间 的 包含 关系 ; 标签 和 数据 值 之 间 的 “instance-of” 关 系 ; 外 键 与 键 的 引用 关系 ; 或 
者 甚至 是 基于 相似 性 的 关系 。 一 般 来 说 ， 这 些 有 向 边 还 可 能 带 有 权重 ， 用 以 表明 关系 的 
强度 。 

值得 注意 的 是 ， 这 种 图 通常 是 一 种 用 来 定义 查询 应 答 语 义 的 逻辑 结构 。 出 于 效率 的 原 
因 ， 它 通常 采用 按 需 计算 的 方式 。 


例 16.1 图 16-1 展示 了 一 个 含有 模式 组 件 的 数据 图 的 例子 。 这 幅 图 表示 的 是 由 4 个 
表格 构成 的 一 个 生物 信息 学 摘录 数据 库 (主要 关注 于 与 基因 相关 的 项 以 及 与 蛋白 质 相 关 的 
实体 和 出 版 物 ) ， 这 些 表格 在 图 中 用 圆 角 和 矩形 表示 。 我 们 展示 了 每 个 表格 MA). RR 
元 组 (如 节点 4 所 示 的 矩形 ) 以 及 属性 值 ( 带 有 文本 标签 的 矩形 ) 的 属性 标签 。 本 示例 
中 的 边 包 括 外 键 关系 〈 如 图 中 双向 粗 箭头 所 示 ) 和 从 属 关系 〈 小 的 单 向 箭头 ) 。 在 许多 情 
形 下 ， 边 和 节点 都 可 能 被 赋予 权重 。 


Interpro 
Interpro 2 GO 


Goid 









图 16-1 表示 生物 信息 学 领域 内 的 一 组 关系 的 模式 或 数据 图 的 例子 。 该 示例 中 的 节点 所 代表 的 是 关系 
〈 圆 角 和 矩形 ) 、 属 性 标签 (椭圆 )、 元 组 (4) URRE GEW); 而 其 中 的 边 所 表示 的 则 是 从 
属 关系 〈 小 的 单 向 箭头 ) ， 以 及 外 键 或 者 预 估 的 交叉 引用 关系 〈 双 向 箭头 ) <<< 


一 个 很 直观 的 问题 就 是 如 何 设置 数据 图 中 的 权重 。 一 般 来 说 ， 数 据 或 元 数据 节点 的 权 
重 所 代表 的 是 其 权威 性 、 可 靠 度 、 精 确 度 或 者 可 信和 度 。 而 边 的 权重 通常 表示 相似 度 或 者 关 
联 度 。 
节点 权重 通常 是 通过 以 下 3 种 方法 之 一 来 设 定 : 
。 图 随机 游 走 算法 ” 受 链接 分 析 算法 (如 PageRank) 的 启发 ， 有 些 系 统 根据 图 中 边 
的 连通 性 来 为 每 个 节点 分 配 一 个 得 分 。 这 里 一 个 常用 的 算法 是 一 个 称 为 Objec- 
tRank 的 算法 ， 该 算法 是 PageRank 算法 的 一 个 变种 以 适用 于 含有 链接 对 象 的 情形 。 
。 投票 或 者 专家 评级 ”在 某 些 特定 的 情形 中 ， 尤 其 是 在 科学 数据 共享 中 ， 可 能 会 由 
一 个 咨询 委员 会 来 为 特定 的 节点 分 配 得 分 ， 或 者 根据 整个 用 户 社 区 对 其 权威 性 的 
投票 来 分 配 得 分 。 
。 查询 基于 答案 的 反馈 “ 稍 后 我 们 将 在 本 章 中 介绍 一 种 权重 分 配 法 ， 系 统 利 用 这 种 
方法 从 指定 查询 结果 的 质量 反馈 中 学 习 节 点 的 权威 性 分 配 规则 。 
在 一 个 单一 数据 库 环境 中 ， 边 的 权重 通常 是 根据 已 知 的 关系 ， 如 完整 性 约束 (尤其 是 
外 键 )， 来 分 配 的 。 在 一 些 更 为 常见 的 数据 集成 情形 中 ， 我 们 需要 对 边 进行 推导 ， 其 具体 
内 容 将 在 16. 3 节 中 讨论 。 
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16.1.2 关键 字 匹 配 和 评分 模型 


给 定 一 组 关键 字 和 一 个 数据 图 ， 关 键 字 搜 索 系 统 会 将 每 个 关键 字 与 图 中 的 节点 一 一 匹 
配 ， 并 计算 一 个 相似 性 得 分 或 者 权重 。 我 们 可 以 通过 以 下 的 方法 来 对 这 个 过 程 进行 建 模 : 
首先 为 每 个 关键 字 在 图 中 添加 一 个 相应 的 节点 ， 然 后 为 数据 图 中 的 每 个 〈 可 能 是 近似 的 ) 
与 之 相 匹 配 的 节点 添加 一 条 带 权 重 的 边 。 


例 16.2 图 16-2 展示 了 一 个 查询 图 的 例子 ， 它 是 在 图 16-1 的 数据 图 的 基础 上 添加 了 
节点 和 相似 边 。 图 中 关键 字 节 点 用 斜体 字 来 表示 ， 同 时 还 带 有 指向 图 中 其 他 匹配 节点 的 虚 
线 有 向 边 。 一 般 来 说 ， 每 个 关键 字 节 点 可 能 带 有 多 条 指向 其 他 节点 的 边 ， 并 且 每 条 边 可 能 
还 被 赋予 一 个 相似 度 值 或 者 其 他 的 权重 值 。 


Query: “GO term name ‘plasma membrane’ publication titles” 


GO term Name Publication 








图 16-2 模式 或 数据 图 中 的 关键 字 匹 配 示例 <<< 


在 这 种 模型 中 ， 真 正 的 查询 处 理 计算 过 程 将 从 数据 图 中 找 出 对 应 的 树 集合 以 关键 字 节 
点 作为 叶子 节点 )， 并 返回 得 分 最 高 的 树 。 接 下 来 ， 我们 将 介绍 两 种 更 为 常用 的 评分 模型 。 


以 查询 树 的 权重 和 作为 得 分 


一 种 常用 的 方法 是 ， 假 设 树 中 的 所 有 权重 值 ， 包 括 关键 字 节点 与 数据 或 元 数据 节点 之 
间 的 边 权 值 ， 都 是 有 效 的 开销 或 者 有 影响 力 的 得 分 ， 其 中 值 越 高 则 表明 距离 越 远 或 者 价值 
越 低 。 这 种 模型 有 一 个 概率 解释 : 如 果 每 个 权重 代表 的 是 其 正确 性 和 关联 性 的 负 对 数 似 然 
概率 ， 那 么 在 假设 概率 独立 的 前 提 下 ， 树 中 所 有 边 权重 值 总 和 所 表示 的 是 整 棵 树 的 正确 性 
和 关联 性 的 负 对 数 似 然 概 率 。 如 果 我 们 只 有 边 上 的 权重 ， 那 么 图 中 前 个 得 分 最 高 的 斯 坦 
纳 树 (Steiner tree) 表示 上 个 最 好 的 答案 (斯坦 纳 树 是 一 棵 与 某 个 指定 叶子 节点 集 相连 并 
且 边 权重 值 总 和 最 小 的 树 ) 。 

如 果 节 点 带 有 权重 ， 那 么 一 种 方法 是 按照 如 下 方式 将 原 图 “转化 为 ”一 个 边 带 有 权重 
的 修改 图 。 将 每 个 带 权 重 的 节点 n 分 裂 成 两 个 节点 n; 和 n;， 然 后 添加 一 条 从 节点 n F n 
的 边 ， 并 将 节点 n 的 权重 weight(n;) 与 某 缩放 因子 a 的 乘积 作为 新 的 权重 赋予 这 条 新 添 
加 的 边 。 接 下 来 ， 与 前 面 一 样 ， 在 这 个 修改 图 上 运行 斯 坦 纳 树 算法 以 返回 得 分 最 高 的 
答案 。 
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在 某 些 情况 下 ， 查 询 树 被 认为 应 该 有 一 个 根 ( 当 考 虑 边 的 方向 性 时 )， 并且 这 个 根 可 
能 会 为 自己 给 出 一 个 得 分 ， 并 计算 入 树 的 总 得 分 中 。 同 样 ， 这 种 情况 也 可 以 使 用 斯 坦 纳 树 
算法 来 计算 得 分 : 在 修改 图 中 添加 一 个 额外 的 叶子 节点 尽 ， 然 后 在 R 与 每 一 个 可 能 的 根 节 
点 之 间 添 加 一 条 边 ， 并 将 该 节点 作为 根 节点 时 它 能 得 到 的 得 分 作为 这 条 新 增 边 的 权重 。 之 
后 ,将 节点 添加 到 斯 坦 纳 树 的 叶子 节点 集合 中 。 


以 从 根 到 叶子 所 需 的 代价 作为 得 分 


前 一 种 评分 模型 考虑 了 边 之 间 的 共享 率 : 每 条 边 的 权重 只 能 计算 一 次 。 而 且 ， 同 一 个 
根 节 点 可 能 被 多 棵 结果 树 所 共享 。 而 另 一 种 可 选 的 评分 模型 则 假设 每 个 候选 的 根 节点 只 能 
对 应 着 一 个 答案 ， 并 且 以 节点 RR 为 根 节点 的 树 的 得 分 应 根据 R 与 每 个 最 邻近 关键 字 匹 配 节 
点 之 间 的 最 短路 径 代价 总 和 来 给 定 。 在 这 种 模型 中 ， 被 共享 的 边 虽 然 被 计算 了 很 多 次 ， 但 
其 中 存在 的 一 个 计算 优势 就 是 每 条 路 径 可 以 分 开 计算 。 与 前 一 种 模型 一 样 ， 当 一 个 节点 变 
成 根 节点 时 ， 我们 也 可 以 在 原 图 中 加 入 节点 的 权重 并 采用 一 种 额外 的 权重 分 配方 式 。 


16.2 结果 排名 计算 


假设 已 经 有 一 种 方法 可 以 用 来 为 某 数据 关系 图 中 所 有 与 给 定 关键 字 查询 可 能 的 匹配 进行 评 
分 ， 那 么 我 们 所 面临 的 下 一 个 挑战 是 计算 出 前 大 个 排名 最 高 的 答案 。 如 何 计算 前 大 个 答案 是 数 
据 库 领域 中 一 个 热门 的 研究 话题 ， 因 此 ， 新 的 技术 还 在 不 断 研 究 之 中 。 这 里 ， 我 们 将 只 是 简要 
地 介绍 几 种 常用 的 技术 ， 更 全 面 的 介绍 将 在 本 章 的 参考 文献 注释 部 分 给 出 。 


16.2.1 图 扩展 算法 


如 前 面 所 描述 的 那样 ， 关 键 字 搜索 所 得 到 的 查询 结果 来 源 于 相应 图 中 的 斯 坦 纳 树 。 在 
某 些 系 统 中 ， 图 表示 整个 数据 库 ， 而 斯 坦 纳 树 只 是 其 中 的 一 个 答案 。 在 另 一 些 系统 中 ， 斯 
坦 纳 树 是 在 模式 (或 者 模式 和 数据 的 一 个 结合 ) 的 基础 上 生成 的 ， 因 此 这 棵 树 所 表示 的 是 
某 个 将 要 执行 的 特殊 的 连接 查询 。 在 上 述 任 一 种 情况 下 ， 斯 坦 纳 树 的 计算 都 是 一 个 NP 难 
题 ， 因 此 ， 我 们 无 法 使 用 精确 的 斯 坦 纳 树 算法 来 从 一 个 大 图 中 计算 出 得 分 最 高 的 结果 。 

相反 ， 最 常用 的 结果 计算 方法 是 启发 式 的 图 扩展 算法 。 该 算法 首先 找 出 一 棵 生成 树 ， 
然后 再 以 迭代 的 方式 对 这 棵 树 进行 精炼 。 通 常 ， 它 所 依据 的 假设 是 ， 数 据 将 会 以 一 棵 带 有 
根 节 点 的 树 的 形式 返回 : 这 棵 树 的 结构 是 依据 外 键 关 系 的 方向 性 来 构建 的 。 


向 后 扩展 


一 种 常用 的 模式 是 在 终端 (叶子 ) 节点 的 基础 上 逐步 构建 出 一 个 完整 的 图 ， 这 种 模式 
称 为 向 后 扩展 (backward expansion) ， 具 体 算 法 如 下 所 述 。 首 先 通过 一 个 倒 排 索引 或 者 相 
似 的 结构 将 搜索 关键 字 与 一 组 节点 匹配 : 每 个 经 过 匹配 的 节点 将 成 为 一 个 叶子 节点 。 从 每 
个 叶子 节点 开始 ， 为 各 个 单 源 最 短路 径 分 别 创 建 一 个 聚 簇 并 用 叶子 节点 来 对 其 进行 扩展 。 
根据 代价 最 低 优 先 策略 (使 用 16. 1 节 中 的 任意 一 个 代价 模型 ) ， 通 过 向 后 跟踪 聚 得 中 现 有 
节点 的 外 键 边 来 对 每 个 聚 秘 进 行 扩 展 。 最 终 ， 这 些 聚 秘 将 会 相互 交叉 ， 这 意味 着 算法 已 经 
找到 了 构成 一 棵 生成 树 所 需 的 交叉 路 径 。 我 们 可 以 按照 代价 递增 的 顺序 依次 返回 这 些 
路 径 。 
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双向 扩展 


有 了 时， 向 后 扩展 的 代价 会 非常 高 ， 尤 其 是 当 大 部 分 节点 的 等 级 较 高 时 ， 因 此 我 们 用 双 
向 扩展 方法 来 解决 这 个 问题 。 在 这 种 方法 中 ， 聚 簇 的 扩展 将 以 一 种 优先 的 方式 来 完成 。 它 
既 可 以 从 候选 根 节点 开始 向 前 扩展 ， 也 可 以 从 叶子 节点 开始 向 后 扩展 。 双 向 扩展 方法 使 用 
了 一 种 启发 式 的 方法 ,叫做 扩散 激活 (spreading activation ) ， 该 方法 优先 考虑 那些 低 等 级 
的 节点 和 低 权 值 的 边 。 


基于 代价 的 向 后 扩展 


这 种 技术 对 向 后 扩展 技术 进行 了 改进 ,但 需要 一 个 代价 模型 。 该 代价 模型 中 的 得 分 是 
从 根 到 叶子 节点 的 最 短路 径 代 价 总 和 ， 这 与 查询 树 中 得 分 为 边 的 权重 之 和 正好 相反 (PEIL 
16. 1 节 ， 并 且 前 一 种 模型 将 会 对 那些 被 根 节 点 和 多 个 叶子 节点 之 间 的 最 短路 径 所 共享 的 边 
进行 “ 双 倍 计算 ”)。 与 之 前 一 样 ， 聚 簇 的 扩展 工作 仍然 是 从 叶子 节点 开始 的 。 我 们 根据 
聚 艇 的 基数 来 选择 下 一 个 进行 扩展 的 聚 徐 : 所 含 节 点 数量 最 少 的 聚 簇 是 下 一 个 被 扩展 的 聚 
艇 ,并 且 与 聚 簇 最 近 的 那个 节点 (根据 代价 模型 得 出 ) 将 被 添加 到 该 聚 簇 中 。 我 们 可 以 通 
过 将 整个 图 划分 为 多 个 块 并 预先 对 这 些 块 进行 索引 来 进一步 缩短 该 算法 的 执行 时 间 。 

通常 ， 图 中 的 节点 所 表示 的 是 关系 型 表格 中 的 值 或 者 元 组 ， 并 且 同 一 个 表格 中 的 多 个 
行 可 能 与 同一 个 关键 字 项 匹配 。 因 此 ， 将 整个 计算 任务 划分 成 一 系列 选择 - 投影 - 连接 类 
型 的 查询 并 同时 计算 出 一 组 部 分 结果 集 ， 将 有 助 于 结果 的 “批量 ”计算 。 这 种 部 分 结果 集 
通常 称 为 候选 网 络 (candidate network ) 。 我 们 通常 使 用 基于 阔 值 的 合并 技术 来 将 候选 网 络 
中 的 部 分 结果 整合 起 来 ， 具 体 的 细节 将 在 下 面 讨论 。 


16.2.2 基于 阅 值 的 合并 


在 生成 得 分 最 高 的 查询 结果 的 过 程 ( 即 所 谓 的 top-k 查询 处 理 ) 中 ， 一 个 关键 的 技术 
就 是 如 何 将 多 个 部 分 结果 数据 流 合并 起 来 。 解 决 这 个 问题 的 大 部 分 算法 都 来 源 于 阔 值 算法 
(Threshold Algorithm, TA) 。 

在 本 书 中 ， 我 们 的 目标 是 对 一 组 元 组 进行 排名 ， 其 中 每 个 元 组 的 得 分 是 由 多 个 基本 得 
分 综合 计算 得 出 的 。 例 如 ， 我们 可 以 根据 餐厅 的 声誉 等 级 和 价格 等 级 的 综合 得 分 来 对 其 进 
行 排名 。 

对 于 每 个 基本 评分 函数 x;， 我 们 都 有 一 个 对 应 的 索引 大 用 来 以 非 按 值 递 增 的 顺序 对 x; 
中 的 元 组 进行 访问 。 而 且 ， 综 合 评分 函数 C, e, da) 一 定 是 单调 的 ， 即 对 于 任意 的 i 
WR riS xi, BAER tlx, y Xn) SEC, +, 2n) o HES, RAB i SRB E 
一 个 x; 的 值 ， 那 么 我 们 可 以 通过 随机 访问 的 方式 来 对 所 有 包含 *; 的 元 组 进行 访问 。 

顾名思义 ， 阔 值 算 法 是 基于 阔 值 这 个 概念 来 运行 的 ， 其 中 ， 阔 值 等 于 所 有 未 读 取 元 组 
的 可 能 的 最 大 得 分 。 一 旦 我 们 获取 了 上 个 得 分 高 于 阅 值 的 元 组 ， 那么 我 们 就 不 再 需要 从 索 
引 中 读 取 出 任何 元 组 。 起 初 ， 国 值 被 设置 为 一 个 最 大 的 值 。 每 次 我 们 从 某 个 索引 L 中 读 
取 一 个 元 组 后 ， 该 阔 值 的 大 小 或 者 保持 不 变 〈 如 果 当 前 从 索引 L 中 读 出 的 元 组 x, 与 上 一 
个 大 小 相等 )， 或 者 比 原 值 小 (如 果 x%; 比 上 一 个 小 ) 。 

在 这 种 情况 下 ， 立 值 算法 可 以 表述 如 下 。 
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1) 并 行 地 读 取 m 个 索引 L，…，L,。 当 从 其 中 某 个 索引 列表 中 检索 出 一 个 元 组 R 
时 ， 执 行 随 机 访问 和 连接 操作 以 构建 一 个 元 组 集 有 尺 ， 该 元 组 集 包 含 了 所 有 与 元 组 RR 的 x,; 值 
相同 的 元 组 。 对 于 每 个 R'eRR， 计 算 其 得 分 i:( R')。 如 果 R' 属 于 当前 综合 得 分 最 高 的 前 上 
个 元 组 之 一 ， 那 么 记录 R' 和 1t(R') (在 候选 元 组 链 的 任意 地 方 插入 它 )。 

2) 对 于 每 个 索引 L, We 为 依次 从 索引 中 读 出 的 所 有 x; 中 的 最 小 值 。 定 义 一 个 阅 值 
7T 为 Kxi，…，xn)。 值 得 注意 的 是 ， 所 有 未 读 取 的 元 组 的 综合 得 分 都 不 会 超过 7。 虽然 我 
们 目前 还 未 获得 个 得 分 不 小 于 7 的 对 象 ， 但 是 算法 会 继续 从 索引 中 读 取出 元 组 (结果 ， 
7 的 值 将 会 不 断 减 小 ) 。 一 旦 获得 了 % 个 得 分 不 小 于 7 的 对 象 ， 算 法 将 停止 读 取 并 返回 这 
个 得 分 最 高 的 元 组 。 

算法 14 更 为 形式 化 地 阑 述 了 这 个 冰 值 算法 。 


输入 : RERA T; 了 上 的 索引 ， 其 中 每 个 索引 项 按照 与 其 关联 的 评分 属性 xi 的 降序 排 
列 : Lye LL; TANA k; 评分 函数 i。 

输出 : 得 分 最 高 的 前 上 个 结果 。 

创建 一 个 大 小 为 上 的 优先 队列 Q 

repeat 

for alli; =1…m， 以 并 行 的 方式 do 

AR AMR L 中 读 取 的 下 一 个 索引 项 
Ava, 为 R; 对 应 的 评分 属性 的 值 


邻 T,: =retrieve( R;) 


| 遍历 索引 了 中 由 索引 项 R, 所 指向 的 所 有 元 组 | 
for all T, e 7; do 
UH t(T;) 
HT, 加 入 队列 Q; WRO 已 满 ， 则 丢弃 Q 中 得 分 最 低 的 结果 ， 这 个 结果 可 能 是 了 


end for 


end for 

BRM r=0(x,, =, x) 
until Q 中 的 大 个 元 组 的 得 分 均 超过 浆 值 了 
将 Q 中 所 有 元 组 从 队 中 移出 并 输出 





目前 已 经 提出 了 该 核心 算法 的 许多 变种 ， 包 括 近似 算法 以 及 无 须 随 机 访问 源 数据 的 算 
法 〈 如 果 不 需要 连接 操作 ) 。 而 且 ， 根 据 阔 值 算法 的 核心 思想 ， 研 究 者 还 设计 出 了 各 种 
“排名 连接 ”算法 。 


例 16. 3 ”假设 我 们 拥有 一 个 带 有 两 个 评分 属性 : 声誉 (rating) 和 价格 (price) 的 关 
RAJT (Restaurants), WK 16-1 所 示 。 每 个 餐厅 (我 们 将 用 其 名 字 作为 其 卫 ) 都 有 一 个 
取 值 范围 为 1 ~5 的 声誉 等 级 (其 中 5 是 最 高 级 ) 以 及 一 个 取 值 范围 为 1 ~5 的 价格 等 级 
(其 中 5 表示 价格 最 贵 ) 。 
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表 16-1 餐厅 示例 ， 带 有 声誉 等 级 和 价格 等 级 属性 









1523 Walnut St. 
401 S.Columbus Blvd. 
231 S.Broad St. 
1310 Drury St. 
312 Race St. 


Alma de Cuba 
Moshulu 

Sotto Varalli 
McGillin’ s 

Di Nardo’ s Seafood 





N NURR UU 





现在 ， 假 设 一 位 用 户 想 要 找 出 那些 最 实惠 的 餐厅 ， 并 且 对 餐厅 的 评级 应 该 基于 这 样 一 个 评 
分 函数 score x0.5 + (5 - price) x0.5。 如 果 我 们 想 要 用 浆 值 算法 高 效 地 检索 出 排名 前 3 的 餐厅 ， 
那么 我 们 应 该 按 如 下 步骤 来 进行 。 首 先 ， 对 该 表格 构建 两 个 索引 ， 如 表 16-2 所 示 。 其 中 一 个 索 
引 是 按照 荣誉 等 级 的 降序 来 进行 的 ; 另 一 个 索引 则 是 按照 值 (5 -price) 的 降序 来 进行 的 。 


表 16-2 餐厅 的 评分 属性 索引 








声誉 名 字 ( 5- 价 格 ) 名 字 
a) 声誉 索引 b ) 价格 索引 
4 Alma de Cuba McGillin’s 
4 Moshulu Di Nardo’s Seafood 
4 McGillin’s Alma de Cuba 
3.5 Sotto Varalli Sotto Varalli 
3 Di Nardo’s Seafood Moshulu 





按照 如 下 步骤 继续 执行 。 读 出 声誉 索引 和 价格 索引 中 得 分 最 高 的 项 ， 分 别 为 Alma de 
Cuba 和 McGillin's。 计 算 Alma de Cuba 的 综合 得 分 为 4 x0.5 +2 x0.5 =3, McGillin’s 的 得 
分 为 3.5。 然 后 ， 将 这 两 个 结果 放 人 一 个 优先 队列 中 ， 其 优先 级 为 对 象 的 得 分 从 高 到 低 排 
列 。 之 后 ， 利 用 从 索引 中 取出 的 最 低 得 分 计算 新 的 国 值 7r: 4 x0.5 +3 x0.5=3.5。 由 于 队 
列 中 没有 任何 一 项 的 得 分 超过 阔 值 ， 所 以 我 们 必须 读 出 更 多 的 值 。 

假设 从 两 个 索引 中 读 出 的 下 一 项 分 别 是 Moshulu (得 分 为 2.5) 和 Di Nardo’s Seafood 
(得 分 为 2.5) 。 由 于 此 刻 阔 值 仍然 没有 改变 ， 所 以 我 们 仍 无 法 输出 任何 结果 ， 但 我 们 将 其 
加 入 到 优先 队列 中 (在 队列 的 任意 地 方 插入 之 )。 接 下 来 ， 我 们 从 两 个 索引 表 中 读 出 的 均 
为 Sotto Varalli (得 分 为 2.75) 并 将 其 加 入 到 优先 队列 中 ， 此 时 立 值 降低 到 2.75。 现 在 ， 
优先 队列 中 有 3 项 的 得 分 超过 了 阅 值 2.75， 即 Alma de Cuba, McGillin’s 以 及 SottoVaralli。 
我 们 输出 这 3 个 项 ， 算 法 结束 。 <<< 


16.3 ”数据 集成 中 的 关键 字 搜索 


与 数据 集成 领域 的 诸多 其 他 问题 一 样 ， 关 键 字 搜 索 问 题 大 多 是 借助 于 单个 数据 库 之 上 
的 相关 技术 来 解决 的 。 不 同 之 处 在 于 ， 这 样 做 会 面临 如 下 两 方面 的 挑战 : 
© 在 单个 数据 库 中 ， 数 据 图 的 边 仅 仅 依赖 于 外 键 约束 而 形成 。 当 跨 多 个 数据 库 构建 
数据 图 时 ， 我 们 往往 需要 借助 一 些 技术 来 发 现 可 能 的 边 ， 常 用 的 技术 包括 字符 串 
匹配 技术 〈 见 第 4 章 ) 和 其 他 诸如 模式 匹配 〈 见 第 5 章 ) 的 方法 。 而 且 ， 在 推断 
可 能 边 的 过 程 中 ， 这 些 额 外 的 处 理 又 会 进一步 扩大 潜在 查询 树 的 搜索 空间 。 此 外 ， 
某 些 推断 出 的 边 实 际 上 可 能 并 不 正确 。 


[407 | 


300 第 三 部 分 新 型 集成 系统 


© 跨 多 个 数据 库 时 ， 由 于 用 户 场景 和 信息 需求 的 不 同 ， 某 些 资源 可 能 会 存在 一 词 多 
义 的 现象 ， 它 们 与 给 定 查询 的 相关 性 也 大 小 不 一 。 注 意 ， 这 与 数据 质量 或 数据 权 
威 的 概念 稍 有 不 同 ， 后 者 往往 是 与 查询 无 关 的 。 
因此 ， 要 解决 数据 集成 中 的 关键 字 搜 索 问 题 ， 重 点 就 在 于 如 何 便捷 地 构建 数据 图 中 的 
边 ， 以 及 如 何 利 用 查询 结果 的 反馈 信息 来 矫正 这 些 边 ， 并 学 习 资 源 之 间 的 相关 性 。 


16. 3.1 以 可 扩展 的 方式 自动 地 构建 边 


如 果 我 们 想 在 数据 集成 背景 下 提供 关键 字 搜 索 的 功能 ， 最 重要 的 问题 也 许 是 如 何 发 现 
可 能 的 跨 源 连接 ， 这 样 一 来 ， 用 户 发 起 的 查询 请 求 就 能 从 多 个 数据 源 中 集成 数据 。 不 同 于 
传统 数据 集成 的 是 ， 这 样 的 场景 中 往往 不 存在 中 介 模 式 和 模式 映射 ， 因 此 搜索 系统 也 许 只 
能 直接 运作 于 数据 源 的 内 容 之 上 。 

当然 ， 基 于 关键 字 搜索 的 数据 集成 系统 往往 包含 预 索引 和 预 处 理 步骤。 它们 的 任务 包括 为 
搜索 词 项 建立 索引 ， 发 现 语义 上 有 意义 的 连接 (这样 的 连接 也 能 生成 查询 结果 ) ， 创 建 数据 结 
构 来 表示 数据 图 中 的 可 能 边 。 此 外 ， 可 能 还 需要 在 新 数据 源 出 现时 ， 增 量 式 更 新 数据 图 。 

上 文 提 到 的 发 现 语 义 上 有 意义 的 连接 ， 其 概念 与 模式 映射 非常 接近 。 所 谓 模 式 映射 ， 就 是 
指 找 到 不 同 模 式 中 的 属性 之 间 的 某 种 映射 关系 ， 其 目标 是 找到 语义 和 数据 类 型 相对 应 的 属性 。 

实际 上 ， 两 者 之 间 仍 存在 某 些 关键 性 的 差异 ， 相 比 之 下 ， 连 接 发 现 问题 更 为 简单 。 
尽管 两 者 的 目标 都 是 要 找到 语义 对 应 的 属性 ， 但 是 连接 发 现 问题 主要 是 寻找 主 / 外 键 关 
系 ， 从 而 将 概念 各 异 的 元 组 连接 起 来 ; 而 模式 映射 问题 则 试图 寻找 一 种 转换 关系 ， 从 而 
将 元 组 转换 成 同样 的 形式 并 联合 在 一 起 。 此 外 ， 模 式 匹 配 常会 遇 到 一 个 问题 ， 一 对 数据 
源 属性 的 实际 取 值 可 能 并 无 重合 (例如 ， 正 是 因为 数据 源 之 间 的 数据 互补 ， 才 能 联合 在 
一 起 ) ， 而 就 连接 发 现 问 题 而 言 ， 往 往 寻 找 的 是 有 重合 的 情况 (在 这 样 的 属性 上 进行 连 
接 才 可 能 产生 结果 ) 。 

我 们 可 以 把 连接 发 现 问题 分 解 成 两 个 子 问题 : 发 现 数据 值 上 的 兼容 性 和 发 现 语 义 上 的 
兼容 性 ， 将 这 两 个 子 问题 的 结果 结合 起 来 正好 是 连接 发 现 问题 的 结果 。 


发 现 数据 值 上 的 兼容 性 


这 个 问题 试图 找 出 哪些 属性 源 于 相同 的 广义 值 域 ， 实 际 上 就 是 按照 值 域 进行 聚 类 。 问 
题 在 于 ， 面 对 大 量 的 数据 值 ， 如 何 才能 进行 高 效 快 速 的 比较 。 我 们 可 以 计算 数据 值 的 统计 
摘要 〈 利 用 散 列 、 直 方 图 、 示 意图 等 技术 ) 。 另 外 ,我们 也 可 以 把 数据 值 分 发 到 多 台 机 器 
上 进行 并 行 处 理 〈 如 map/reduce 方式 或 其 他 方式 ) ， 快 速 计 算出 重合 率 。 


考虑 语义 上 的 兼容 性 

有 的 取 值 重合 的 属性 在 语义 上 未 必 是 相关 的 〈 例 如 ， 许 多 属性 都 可 能 取 整 数值 ) 。 于 
是 我 们 需要 考虑 其 他 依据 ， 例 如 ， 属 性 名 的 相关 性 。 此 类 信息 的 获取 可 以 借助 模式 映射 工 
具 来 实现 。 
AGRA 

把 数据 值 上 的 兼容 性 和 语义 上 的 兼容 性 组 合 起 来 的 一 种 最 为 简单 的 方式 即 加 权 求 和 。 
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或 者 也 可 以 采用 推荐 系统 中 的 链接 分 析 技 术 ， 比 如 标签 传播 算法 。 具 体 来 说 ， 我 们 可 以 针 
对 数据 与 数据 间 的 关系 、 元 数据 与 元 数据 间 的 关系 进行 图 形 编码 ， 并 使 用 标签 传播 算法 将 
结果 组 合 起 来 ， 从 而 生成 组 合 的 重合 率 预 测 值 。 


16.3.2 可 扩展 的 查询 应 答 


给 定 一 个 带 权 数据 图 ， 如 何 计算 前 个 查询 结果 往往 是 一 个 挑战 性 问题 ,也许 需 要 同 
时 发 起 大 量 的 查询 。16. 2 节 描 述 的 方法 在 这 里 仍然 可 行 ， 现 在 的 问题 在 于 ， 如 何 才能 只 执 
行 必要 的 工作 。 如 果 数 据 源 的 取 值 信息 是 已 知 的 ， 我 们 常常 能 为 某 些 查询 或 子 查询 估算 一 
个 得 分 范围 。 那 么 在 生成 和 执行 前 个 查询 的 过 程 中 ,我 们 只 需 列 举 或 执行 那些 对 最 终结 
果 有 用 的 子 查 询 。 


16.3.3 通过 学 习 算法 调整 边 和 节点 的 权重 


本 节 的 前 面部 分 介绍 了 几 种 对 数据 图 中 边 和 节点 的 权重 进行 预计 算 的 方法 。 主 要 问题 
在 于 ， 如 果 没 有 领域 专家 的 帮助 ， 在 给 定数 据 源 的 数据 和 特定 问题 的 相关 程度 也 未 知 的 情 
况 下 ， 我 们 很 难 给 出 正确 的 权 值 。 近 期 研究 表明 ， 也 可 以 在 查询 进行 而 非 纯粹 在 预 处 理 时 
计算 权 值 。 其 思想 是 为 用 户 查 询 返 回 “ 最 可 能 ”的 结果 ， 并 要 求 某 些 对 结果 权威 性 具有 评 
估 能 力 的 用 户 对 其 已 知 是 好 是 坏 的 结果 进行 反馈 。 

系统 利用 机 器 学 习 技术 对 反馈 信息 进行 概括 ， 并 调整 边 权 重 的 某 些 “得 分 因子 "”。 更 
正式 地 讲 ， 这 个 过 程 其 实 就 是 所 谓 的 在 线 或 半 监 督学 习 (基于 多 重 反馈 的 增 量 学 习 )， 而 
此 处 所 说 的 “得 分 因子 ” 则 对 应 机 器 学 习 中 的 特征 。 数 据 图 中 的 边 权 重 可 以 通过 该 边 的 带 
权 特 征 的 组 合计 算得 出 。 例 如 ， 连 接 两 个 元 数据 项 的 边 的 权重 ， 可 能 代表 下 列 几 项 的 加 权 
线性 组 合 : 1) 这 两 个 元 数据 项 的 值 集 的 Jaccard 距离 ; 2) 标签 之 间 的 编辑 距离 ; 3) 这 两 
个 元 数据 项 及 其 数据 值 的 来 源 权威 度 。 注 意 在 上 述 这 些 特征 中 ， 有 的 是 某 些 节点 之 间 的 边 
特有 的 ， 其 他 则 是 与 其 他 边 权 重 共享 的 比如， 来 源 权威 性 )。 适 当 的 特征 集 能 帮助 系统 
把 单一 结果 的 反馈 信息 推广 到 其 他 相关 结果 上 。 

该 方法 是 否 可 行 还 取决 于 能 否 解 决 下 面 两 项 挑战 。 


从 查询 结果 中 提出 影响 该 元 组 得 分 的 特征 

给 定 一 条 查询 结果 元 组 ， 识 别 出 该 元 组 是 如 何 产 生 的 、 从 哪里 产生 的 ， 以 及 影响 其 得 
分 的 独立 特征 和 权重 是 至 关 重 要 的 。 特 征 向 量 、 权 重 以 及 正确 结果 的 反馈 信息 ， 都 将 输入 
给 在 线 学 习 算 法 。 结 果 元 组 的 数据 溯源 〈 见 第 14 章 ) 与 标注 能 够 帮助 我 们 找 出 特征 值 。 


评分 模型 和 学 习 算 法 必须 一 一 对 应 


在 线 学 习 技术 多 如 繁星 。 一 般 来 说 ， 计 算 结果 排名 模型 应 该 与 学 习 算 法 一 一 对 应 。 如 果 排 
序 模型 是 基于 各 因子 的 加 权 线 性 组 合 〈 数 据 库 关键 字 搜 索 应 用 中 最 常用 的 模型 ) ， 那 么 依靠 特 
征 的 线性 组 合 来 调整 权重 值 的 学 习 算法 就 是 可 行 的 ， 例 如 MIRA 算法 (Margin- Infused Ranking 
Algorithm) 。MIRA 算法 利用 那些 对 结果 得 分 提出 约束 限制 的 反馈 信息 (“ 排 在 第 5 位 的 结果 应 
该 比 排 在 第 2 位 的 结果 得 分 更 高 ") 来 调整 权重 以 满足 约束 条 件 。 
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本 节 介 绍 的 学 习 技术 能 够 有 效 解决 基于 关键 字 搜 索 的 数据 集成 应 用 中 的 各 种 权重 调整 问 
题 : 学 习 所 有 查询 共享 的 节点 权重 (例如 ,来源 的 权威 性 )， 学 习 节 点 、 边 与 特定 场景 中 特 
定 查 询 的 相关 性 ， 学 习 数 据 图 中 边 的 正确 的 相似 性 得 分 ， 例如,“ 修复 ”不 好 的 数值 对 齐 。 


参考 文献 注释 


一 直 以 来 ， 关 键 字 搜索 以 及 它 与 数据 库 、 数 据 集 成 的 关系 得 到 了 广泛 的 研究 。 近 来 ， 
Yu, Lu 和 Chang[ 587] 综 述 了 数据 库 领 域 的 关键 字 搜索 工作 。 早 期 的 系统 ,包括 DISCOV- 
ER[304] 和 DbXplorer[18] ， 都 侧重 于 为 关键 字 搜 索 生 成 SQL 语句 ， 它 们 采用 的 只 是 从 查 
询 树 自身 结构 演化 而 来 的 极其 简单 的 排序 机 制 。 而 SPARK[ 403 ] 则 受信 息 检索 领域 相关 技 
术 的 启发 ， 提 出 了 一 种 新 的 排序 机 制 。 

数据 库 中 的 可 扩展 搜索 算法 向 来 都 是 人 们 关注 的 焦点 。 本 章 介 绍 的 向 后 图 扩展 技术 是 由 
BANKS[ 80] 提 出 的 ， 该 技术 采用 了 一 种 非常 通用 的 树 排序 模型 。 精 简 版 BANKS 则 提出 了 更 
为 通用 的 双向 搜索 策略 [337 ] 。BLINKS[298 ] 采 用 的 是 本 章 介绍 的 从 根 到 路 径 的 排序 模型 ， 
这 种 模型 的 优点 在 于 复杂 度 有 限 。STAR[344 ] 斯 坦 纳 树 近 似 算 法 利用 了 现 有 的 查询 分 析 树 ， 
与 本 章 描 述 的 方法 相 比 ， 这 种 算法 效果 更 佳 ， 它 甚至 还 给 出 了 该 场景 下 的 近似 保证 。 该 算法 
重点 支持 YAGO 项 目 [534] 的 关键 字 搜索 ， 参 见 第 15 章 。[51 ] 的 工作 则 试图 扩展 DISCOVER 
系统 中 的 关键 字 搜索 。 它 要 求 查 询 结 果 必 须 在 规定 时 间 内 返回 ， 并 指向 一 个 其 他 资源 列表 ， 
让 用 户 能 访问 更 为 详细 的 信息 ， 例 如 与 关键 字 匹 配 的 查询 表单 [137，492 ] 。 

其 他 工作 侧重 在 丰富 关键 字 搜 索 领 域 的 操作 集 。SOAK[ 540 | 将 聚集 操作 纳入 进来 。 
Précis 系统 [523 | 设计 出 了 用 布尔 操作 符 连 接 关键 字 的 语法 。 产 品 搜 索 应 用 的 相关 工作 
[509, 583 ] 则 对 关键 字 搜 索 项 进行 了 探究 ， 并 将 其 扩展 为 单 表 多 属性 上 的 选择 谓词 。 

关键 字 搜 索 系统 中 的 一 个 重要 问题 就 是 topp- 丰 查询 处 理 算 法 。Fagin 在 [221 | 中 提出 了 
TA 算法 (Threshold Algorithm) 及 多 种 算法 变 体 。 此 外 ， 还 有 大 量 的 算法 可 用 于 在 排序 模 
型 中 进行 连接 操作 ， 包 括 [226，266，310，415，514，515 ] 。 我 们 知道 ，top-k 查询 仅 需 
执行 到 上 个 结果 产生 为 止 ， 针 对 这 一 点 ， 人 们 提出 了 专门 的 技术 [109，311，383 ] 来 对 该 
场景 下 的 查询 进行 优化 ， 并 估计 实际 处 理 的 输入 量 。 除 此 之 外 ， 人 们 还 开发 了 相关 技术 对 
那些 可 能 会 被 处 理 的 查询 建立 索引 ， 从 而 避免 随机 访问 [334] 。[52] 则 讨论 了 如 何 构建 具 
有 产业 实力 的 关键 字 搜 索 系 统 。 

在 数据 集成 应 用 中 ， 有 一 项 任务 是 要 识别 查询 来 自 哪个 领域 ， 接 着 再 分 割 其 不 同 组 成 部 
分 。 例 如 ， 要 对 查询 “越南 咖啡 产量 ”做 出 应 答 ， 我 们 首先 需要 识别 出 该 查询 是 关于 咖啡 领 
域 的 ， 接 着 将 其 翻译 成 CoffeeProduction (vietnam) (咖啡 产量 (越南 )) 的 形式 。 接 下 来 ， 
我 们 需要 找到 一 张 与 属性 CoffeeProduct (咖啡 产量 ) (名 称 可 能 不 同 ) 相关 且 包 含 越南 这 一 
行 的 表 。[167] 介 绍 了 这 个 问题 的 早期 工作 。Kite 系统 [512] 提 出 了 一 些 技术 ， 通 过 使 用 摘要 来 
发 现 连接 关系 并 迭代 地 在 top-k 计算 过 程 中 生成 查询 。Q 系统 [538，539] 提 出 了 基于 反馈 的 学 习 
方法 ， 该 方法 已 在 本 章 前 面 介 绍 过 。 另 外 ， 在 某 些 数据 集成 应 用 中 ， 当 我 们 只 能 获得 查询 的 元 
数据 信息 时 ， 如 何 实现 基于 排序 的 关键 字 搜 索 ， 这 一 问题 在 Velegrakis 等 人 的 工作 得 以 解决 。 
第 15 章 讨论 的 工作 ， 解 决 了 在 HTML 表格 上 进行 关键 字 查 询 的 问题 。 

当然 ， 在 搜索 、 排 序 和 概率 数据 之 间 存 在 某 种 联系 〈 见 第 13 章 ) 。 关 于 概率 排序 机 制 
的 细节 可 参见 [312] 。 
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对 等 数据 集成 





截至 目前 ， 前 面 介绍 的 所 有 基于 查询 的 结构 化 数据 集成 或 数据 仓库 架构 都 要 求 在 查询 
之 前 先 创 建 中 介 模 式 或 中 央 数 据 库 。 这 项 任务 需要 在 建 模 、 维 护 以 及 协调 数据 拥有 者 上 下 
大 功夫 。 尤 其 是 ,创建 中 介 模 式 要 求 能 够 很 好 地 定义 涉及 的 领域 范围 ， 而 且 要 能 找 出 清晰 
可 辨 的 模式 ， 这 一 点 往往 很 难 做 到 。 例 如 ， 就 科学 场景 下 的 数据 共享 而 言 ， 多 个 学 科 的 数 
据 都 会 有 所 涉及 ， 比 如 基因 数据 、 诊 断 和 临床 试验 数据 、 文 献 数据 、 药 物 数 据 。 每 个 学 科 
都 有 其 独特 的 方式 来 概念 化 这 个 领域 的 数据 。 因 此 ， 很 难 成 功 创建 一 个 统一 的 中 介 模 式 。 

现在 越 来 越 多 的 数据 拥有 者 希望 彼此 之 间 的 协作 无 须 建立 在 中 央 权 威 性 或 全 局 标准 化 
之 上 。 他 们 的 这 种 协作 可 能 始 于 两 三 个 数据 源 互 换 数据 ， 接 着 ， 随 着 新 数据 源 的 出 现 或 者 
需求 的 变更 不 断 壮 大 。 然 而 ， 数 据 拥有 者 可 能 并 不 想 显 示 地 创建 一 个 定义 整个 协作 范围 的 
中 介 模 式 ， 以 及 一 套 所 有 拥有 者 都 需要 映射 的 项 集 。 

近年 来 ， 去 中 心 化 协作 成 为 数据 集成 的 一 个 研究 热点 。 本 章 侧 重 于 介绍 如 何 通过 各 种 
不 同 的 模式 ， 以 去 中 心 化 协作 式 的 方式 查询 高 质量 数据 。 第 18 章 ， 特 别 是 18.4 节 ， 介 绍 
了 许多 应 对 数据 质量 不 整齐 、 数 据 更 新 的 技术 。 

对 等 数据 管理 系统 (Peer Data Management System, PDMS) 的 基本 方法 是 打破 对 中 央 
权威 性 的 中 介 模 式 的 依赖 。 每 个 参与 者 或 者 对 等 节点 可 以 同时 针对 自身 的 源 数据 (存储 关 
A) 和 集成 的 查询 数据 (对 等 关系 ) 定义 其 自己 的 模式 。 从 概念 上 看 ， 这 个 模型 与 P2P 
计算 非常 相关 。 在 P2P 计算 中 ， 所 有 的 参与 者 都 是 对 等 节点 ， 它 们 以 元 组 、 模 式 和 查询 应 
答 的 形式 提供 资源 ， 同 时 又 通过 发 起 查询 消费 资源 。 而 在 PDMS 中 ， 参 与 者 不 需要 在 一 个 
数据 集成 视图 上 达成 广泛 一 致 ， 而 是 必须 就 如 何 从 一 种 模式 映射 到 男 一 种 模式 达成 有 限 的 
局 部 协议 ( 比如， 成 对 协议 )。 这 些 对 等 映射 定义 了 对 等 节点 之 间 的 语义 关系 。 一 个 查询 
总 是 关乎 于 一 个 特定 节点 的 模式 ， 而 查询 应 答 就 是 递归 地 按照 “邻居 ”节点 的 模式 重 写 查 
询 ， 这 些 “ 邻 居 ” 节 点 再 接着 重 写 查 询 并 传 给 它们 的 “邻居 ”， 以 此 类 推 一 一 沿 着 网 络 的 
路 径 前 行 。 这 样 一 来 ， 局 部 语义 关系 就 扩展 为 网 络 中 越 来 越 广 的 数据 共享 。 

在 PDMS 中 ， 数 据 转换 更 加 局 部 化 、 模 块 化 ， 协 作 式 的 数据 资源 可 以 成 对 地 〈 或 小 型 集 
BA) 创建 局 部 映射 。 这 些 映 射 可 以 针对 数据 拥有 者 的 特定 协作 需求 定制 。 随 着 时 间 的 推 
移 ， 协 作者 可 以 通过 扩大 数据 的 共享 范围 或 新 增 协 作者 来 扩大 局 部 映射 。 通 过 在 这 些 局 部 映 
射 上 重 写 查 询 ， 并 沿 着 映射 路 径 连 接 网 络 中 广泛 分 布 的 协作 者 ， 数 据 共享 以 此 得 以 推广 。 


17. 1 对 等 节点 和 了 映射 


一 个 PDMS 由 数 个 对 等 节点 和 两 种 映射 组 成 : 存储 描述 ， 表 明 如 何 将 源 数 据 映射 到 
PDMS; 对 等 映射 ， 把 不 同 节 点 的 模式 关联 起 来 。 见 图 17-1 中 的 示例 。 在 PDMS 中 ， 每 个 
对 等 节点 包含 一 个 对 等 模式 ， 它 由 一 套 对 等 关系 组 成 。 对 等 模式 对 PDMS 中 的 其 他 节点 可 
见 。 对 等 节点 的 数据 往往 是 以 关系 表 的 形式 存储 的 。 存 储 描述 就 是 把 存储 关系 表 模 式 和 对 
等 模式 关联 起 来 的 语义 映射 。 对 等 映射 则 是 把 各 个 节点 的 模式 关联 起 来 的 语义 映射 。 
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图 17-1 PDMS 的 结构 。 每 个 对 等 节点 包含 一 个 对 等 模式 以 及 关联 各 节点 模式 的 对 等 映射 。 每 个 对 等 节 
点 的 数据 以 关系 表 的 形式 存储 ， 而 存储 描述 就 是 存储 关系 和 对 等 模式 之 间 的 语义 映射 


每 个 对 等 节点 的 情况 也 可 能 很 复杂 。 例 如 ， 一 个 对 等 节点 可 能 就 是 一 个 局 部 数据 集成 
系统 ， 既 要 提供 对 多 个 数据 源 的 访问 ， 又 要 向 其 他 节点 呈现 中 介 模 式 。 有 时 ， 某 个 对 等 节 
点 可 能 根本 不 含 数据 ， 仅 仅 起 到 调解 作用 。 

查询 PDMS 是 在 某 个 节点 的 对 等 模式 之 上 发 起 的 。 一 般 来 说 ， 每 个 对 等 关系 都 是 存在 
于 特定 “命名 空间 ”的 或 带 有 标识 节点 的 唯一 标识 符 作 为 前 级 ， 这 样 要 判定 对 等 模式 就 轻 
而 易 举 了 。 遵 循 该 惯例 ， 本 章 采 用 节点 名 . 关系 名 的 语法 命名 所 有 节点 和 存储 关系 表 。 

对 等 映射 和 存储 描述 可 以 用 来 重 写 对 等 模式 上 的 查询 ， 重 写 的 结果 就 是 仅仅 涉及 存储 
关系 表 的 查询 。 


例 17.1 图 17-2 描绘 了 PDMS 协调 紧急 响应 的 过 程 。 和 矩形 框 旁 标注 的 关系 表 是 对 等 关 
系 ， 圆 柱 形 旁 的 是 存储 关系 。 节 点 间 的 连 线 表示 它们 之 间 存 在 对 等 映射 (细节 稍 后 介绍 ) 。 

左边 的 对 等 节点 包含 俄 勒 闪 的 数据 。 存 储 实际 数据 的 关系 表 由 医院 和 消防 局 提供 (对 
等 节点 FH. LH, PFD 和 VFD)。 其 中 ， 两 个 消防 局 服务 节点 (PFD 和 VFD) 可 以 共享 数 
据 ， 因 为 它们 的 对 等 关系 之 间 存 在 映射 。 此 外 ， 节 点 FS 提供 所 有 消防 局 服务 数据 的 统一 
视图 ， 但 是 注意 它 自身 并 不 含 数据 。 类 似 地 ， 节 点 H 提供 医院 数据 的 统一 视图 。911 调度 
中 心 (9DC) 节点 则 包含 所 有 的 紧急 服务 数据 。 

右边 的 对 等 节点 包含 华盛顿 的 数据 。 当 地 震 发 生 时 ，PDMS 就 可 以 大 显 身手 了 : ER 
顿 的 地 震 指挥 中 心 (Earthquake Command Center, ECC) 和 其 他 关联 节点 可 以 加 入 俄勒冈 
的 系统 。 一 旦 我 们 在 节点 ECC 和 9DC 之 间 提 供 对 等 映射 ， 在 它们 之 上 的 发 起 查询 就 能 够 
利用 所 有 的 数据 。 <<< 


现在 形式 化 地 描述 我 们 在 存储 描述 和 对 等 映射 中 用 到 的 语言 。 该 语言 基于 第 3 章 的 模 
式 映 射 语言 ， 并 结合 了 全 局 视图 (Global-as-View) 和 局 部 视图 (Local-as-View) 的 特征 。 
从 某 种 意义 上 说 ， 下 面 描述 的 语言 扩展 了 CAV 和 LAV， 从 数据 源 和 中 介 模 式 的 两 层 架 构 
扩展 到 更 加 一 般 化 的 对 等 网 络 ， 它 能 够 形成 任意 的 图 。 
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存储 描述 


每 个 对 等 节点 包含 一 个 存储 描述 集 (可 能 为 空 ) ， 它 们 指明 了 数据 实际 存储 的 位 置 。 
这 些 存 储 描述 是 把 存储 关系 和 对 等 关系 关联 起 来 的 语义 映射 。 形 式 上 ， 对 等 节点 4 的 存储 
描述 如 下 : 
PE Ë a«ceGo 
其 中 , REWAA 的 存储 关系 ， 而 8 是 4 的 对 等 模式 上 的 查询 。 我 们 称 具 有 “ = ”的 存储 描 
述 为 等 值 描述 ， 具 有 “ECE” 的 为 包含 描述 。 等 值 描述 表示 查询 O 的 所 有 结果 都 存储 在 节点 4 
上 的 关系 R 中， 而 包含 描述 表示 R 是 0 的 结果 集 的 子 集 ， 从 而 表达 开放 世界 的 语义 。 


例 17.2 把 节点 FH 的 医生 关系 表 和 对 等 关系 关联 起 来 的 存储 描述 示例 。 
doc(sid, last, loc) < FH.Staff(sid, f, last,s,e), FH.Doctor(sid, loc) 
sched(sid,s,e) <c FH.Staff(sid, f, last,s,e), FH.Doctor(sid, loc) <<< 


对 等 映射 


对 等 映射 在 语义 上 把 不 同 节点 的 模式 关联 起 来 。 我 们 描述 了 两 种 对 等 映射 。 一 种 是 等 
值 和 包含 映射 ， 类 似 于 数据 集成 应 用 中 的 GLAV 描述 。 另 一 种 是 定义 映射 ， 它 本 质 上 就 是 
datalog 表达 式 。 

等 值 和 包含 对 等 映射 形式 为 : 

Q,(A1) = Q, (Az) ( FIERA) 

Q, (A) © Q (A2) (PRA) 
其 中 O 和 Q 是 谓词 数目 相同 的 合 取 查 询 ，.4 和 As 是 节点 集合 。 查 询 Oo, IPRA 中 
的 任何 对 等 关系 (Q, 和 A 同 理 ) 。 

直观 来 看 ， 这 样 一 个 映射 表明 在 节点 集 4 上 执行 查询 Q 将 总 是 产生 相同 的 结果 〈 如 果 
是 包含 映射 则 产生 结果 子 集 ) Q, FEAL 上 也 是 如 此 。 注 意 这 里 用 了 “执行 ” (evaluate) 一 
词 ， 考 虑 到 数据 检索 不 仅 会 发 生 在 查询 发 起 节点 ， 还 可 能 发 生 在 其 他 节点 。 

定义 映射 是 datalog 规则 ， 它 涉及 的 关系 〈 头 和 主体 ) 都 是 对 等 关系 。 我 们 把 定义 映 
射 单独 提出 来 主要 是 出 于 两 方面 的 原因 。 首 先 ， 当 对 等 映射 仅 限于 是 定义 映射 时 ， 查 询 应 
答 的 难度 会 比 通 常情 况 要 小 得 多 ， 这 一 点 我 们 在 后 面 就 会 感受 到 。 其 次 ,定义 映射 可 以 方 
便 地 表示 析 取 (如 下 例 所 示 )， 而 这 是 CLAV 映射 无 法 表示 的 。 


例 17.3 我 们 可 以 使 用 包含 映射 来 指明 LH 对 等 关系 是 节点 H 的 关系 的 视图 ， 其 中 
节点 H 负责 调解 多 个 医院 的 数据 。 在 该 场景 下 这 是 极其 方便 的 ， 因 为 节点 H 终于 可 以 在 
多 个 医院 之 间 进 行 调解 了 ， 而 且 LAV 形式 的 描述 更 为 合适 。 

LH.CritBed(bed, hosp, room, PID, status) C 

H.CritBed(bed, hosp, room), H.Patient(PID, bed, status) 

LH.EmergBed(bed, hosp, room, PID, status) < 

H.EmergBed(bed, hosp, room), H.Patient(PID, bed, status) 
LH.GenBed(bed, hosp, room, PID, status) c 
H.GenBed(bed, hosp, room), H.Patient(PID, bed, status) 


节点 9DC 的 SkilledPerson 对 等 关系 ， 它 调解 医院 和 消防 局 服务 关系 表 ， 可 用 如 下 的 
定义 映射 表示 。 定 义 表示 9DC 的 SkilledPerson 可 以 通过 联合 H 和 FS 的 模式 获得 。 
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9DC.SkilledPerson(PID, “Doctor”) :- H.Doctor(SID, h, |, s, e) 
9DC.SkilledPerson(PID, “EMT") :- H.EMT(SID, h, vid, s, e) 
9DC.SkilledPerson(PID, “EMT”) :- FS.Schedule(PID, vid), 
FS.1istResponse(vid, s, |, d), FS.Skills(PID, “medical”) <<< 


17.2 映射 的 语义 


根据 虚拟 数据 集成 系统 中 映射 语义 的 定义 ， 我们 也 这 样 来 定义 PDMS 的 映射 语义 。 
3.2.1 节 定 义 了 查询 0 的 确定 结果 。 确 定 结果 是 包含 在 中 介 模 式 的 所 有 与 数据 源 一 致 的 实 
例 中 的 结果 。 
E PDMS 场景 中 ， 我 们 看 的 是 所 有 节点 的 对 等 关系 的 实例 ， 而 不 是 中 介 模 式 的 实例 。 要 
保证 实例 的 一 致 性 ， 对 等 关系 的 扩展 需要 满足 涉及 存储 关系 内 容 的 对 等 映射 和 存储 描述 。 
形式 化 地 ， 假 设 给 定 一 个 PDMS 、P 和 一 个 存储 关系 实例 D。 实 例 D 分 配 一 个 元 组 集 
D(R) 到 每 个 存储 关系 ReP。PDMS P 的 一 个 数据 实例 1， 是 把 一 个 元 组 集 T(R) 分 配给 P 
中 的 每 个 关系 。 注 意 ，7 分配 元 组 集 给 对 等 关系 和 存储 关系 。 用 0Q(1) 表示 查询 Q 在 实例 7 
上 的 结果 。 
直观 地 看 ， 给 定 D、 存 储 描述 和 对 等 映射 ， 如 果 一 个 数据 实例 1 描述 的 是 可 允许 的 可 
能 世界 状态 〈 比 如 ，P 中 关系 的 扩展 ) ， 那 么 它 与 ?与 D 就 是 一 致 的 。 
定义 17. 1 (一 致 的 数据 实例 ) 了 表示 PDMS P 的 数据 实例 ,DD 表示 PP 中 一 个 存储 关系 
实例 。 实 例 I 称 为 与 P、D 是 一 致 的 ， 当 满足 : 
© 对 于 每 个 存储 描述 re 号 ， 如 果 r 具备 形式 4 R=0,(4:RCO,)， 那么 D(R) = 
QC) (D(R) EQ, (I) )> 
© 对 于 每 个 对 等 描述 reP， 
o 如 果 r 上 有 具备 形式 (A) = 0 (4a) ,那么 0(7) = (1). 
如 果 r 具 备 形式 O0(4) © 0;(4;) BAA) ©). 
o 如 果 r 是 一 个 定义 描述 ， 头 请 词 为 p， 用 7r,，…, mm 表示 所 有 头 部 带 p 的 定义 映射 ， 用 
Ir) KRR r; 的 主体 在 实例 1 上 的 结果 。 那 么 1(p) =r) U… Urn) o 
我 们 把 确定 结果 定义 为 包含 在 每 个 一 臻 数据 实例 中 的 结果 。 
定义 17. 2 (PDMS 中 的 确定 结果 ) Q 是 PDMS P 上 的 一 个 查询 ，D 是 人 的 存储 关系 
实例 。 我 们 称 元 组 a 是 0 关于 D 的 确定 结果 ， 如 果 对 于 所 有 与 P、D 一 致 的 数据 实例 都 有 
aeQ(/). 
注意 定义 17. 1 最 后 的 着 重 号 ，P 的 扩展 不 需要 是 datalog 规则 的 最 小 不 动 点 模型 。 然 
而 ， 因 为 确定 结果 定义 为 那些 包含 在 每 个 一 致 数据 实例 中 的 结果 ， 所 以 实际 上 我 们 也 只 能 
获取 那些 满足 最 小 不 动 点 模型 的 结果 。 


17.3 PDMS 查询 应 答 的 复杂 性 


现在 考虑 如 何在 PMDS 中 求 出 查询 的 所 有 确定 结果 。 我 们 很 快 就 会 看 到 ， 问 题 的 复杂 
性 取决 于 映射 的 性 质 。 我 们 用 数据 大 小 和 PDMS 大 小 来 衡量 查询 应 答 的 计算 复杂 度 。 决 定 
计算 复杂 度 的 一 个 重要 性 质 是 映射 中 是 否 存 在 环 。 

定义 17. 3 (无 环 的 包含 对 等 映射 ) 如 果 下 面 的 有 向 图 G 是 无 环 的 ， 则 称 包含 对 等 映 
射 集 L 是 无 环 的 。 
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G 中 的 节点 是 C 中 的 对 等 关系 。 如 果 L 中 存在 形 如 Q,(4A1) CQ) 的 对 等 映射 ， 则 


称 G 中 从 关系 及 到 关系 3 存在 一 条 弧 ， 其 中 民 出 现在 Q 中 ,5 出 现在 0, 中 。 
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下 面 的 定理 阐述 了 PDMS 查询 应 答 的 两 种 极端 情况 。 

定理 17. 1 P 是 一 个 PDMS，0Q 是 P 上 的 合 取 查询 。 

1) 找 出 Q 的 所 有 确定 答案 这 一 问题 是 不 可 判定 的 。 

2) 如 果 P 了 中 只 有 和 包含 存储 描述 和 对 等 映射 ， 且 对 等 映射 是 无 环 的 ， 那 么 能 在 P 及 PP 的 
存储 关系 大 小 的 多 项 式 时 间 内 对 QO 做 出 应 答 。 

这 两 种 情况 的 复杂 度 差别 表明 环 的 存在 是 影响 PDMS 查询 应 答 效率 的 罪魁 祸首 。 下 一 
节 将 介绍 当 满 足 定 理 17. 1 第 二 种 情形 时 的 一 种 多 项 式 时 间 的 查询 应 答 算 法 。 定 理 的 第 一 
种 陈述 可 从 函数 依赖 和 闭 包 依赖 的 蕴含 问题 规约 得 证 。 

有 趣 的 是 ， 定 理 17.1 是 GLAV BS ( 见 3.2.4 节 ) 方式 的 扩展 。3. 2.4 节 的 定理 表明 
LAV 和 GAV 重 写 可 以 通过 一 层 LAV 外 加 一 层 GAV 的 方式 结合 起 来 。 定 理 17. 1 表明 在 某 
些 条 件 下 ，LAV 和 GAV 可 以 结合 任意 多 次 。 


17.3.1 有 环 PDMS 


无 环 PDMS 对 于 实际 应 用 来 说 限制 过 强 。 我 们 实际 感 兴趣 的 情况 是 ， 数 据 复制 : 当 一 
个 对 等 节点 在 不 同 节点 上 维护 了 数据 副本 时 。 例 如 ， 在 图 17-2 中 ， 地 震 指 挥 中 心 出 于 可 
靠 性 考虑 ， 也 许 希望 复制 911 调度 中 心 的 Vehicle 表 ， 表达 式 如 下 

ECC. vehicle(vid,t,c,g,d) = 9DC. vehicle(vid,t,c,g,d) 

为 了 表示 复制 ,需要 等 值 描述 ， 必 然 会 把 环 引 人 PDMS。 一 般 来 说 ， 有 环 存在 的 情况 
下 查询 应 答 是 不 可 判定 问题 ， 但 当 等 式 不 含 投影 时 ， 它 就 变 得 可 判定 了 ， 正 如 本 例 一 样 。 
下 面 的 定理 给 出 一 个 重要 的 特殊 情况 ,在 这 种 情况 下 ，PDMS 的 查询 应 答 是 易于 处 理 的 ， 
甚至 当 对 等 描述 中 存在 环 时 。 

定理 17.2 令 P 是 一 个 PDMS， 其 所 有 的 包含 对 等 映射 都 是 无 环 的 ， 但 可 能 存在 等 值 
对 等 映射 。 令 Q@ 是 了 上 的 合 取 查询 。 假 设 满 足 如 下 两 个 条 件 : 

© 当 刀 中 的 存储 描述 或 对 等 映射 是 等 值 描述 时 ， 它 不 包含 投影 。 即 所 有 出 现在 等 号 左 

边 的 变量 也 出 现在 右边 ， 反 之 亦 然 ， 并 且 

© 出 现在 定义 描述 头 部 的 对 等 关系 不 会 出 现在 其 他 任何 描述 的 右边 。 
那么 ， 找 出 Q 的 所 有 确定 结果 可 以 在 数据 和 PDMS 大 小 的 多 项 式 时 间 内 完成 。 

进一步 推广 到 一 类 特定 的 有 环 映射 ， 称 为 弱 环 映射 ， 这 也 能 通过 其 他 查询 重 写 算法 来 
实现 。 参 见 18.4 节 。 


17. 3.2 ”对 等 映射 中 的 比较 谓词 


正如 第 3 章 介 绍 的 一 样 ， 如 果 映 射 中 包含 比较 谓词 ， 那 么 查询 应 答 的 复杂 度 可 能 会 发 
生变 化 。 下 面 的 定理 阐释 了 比较 谓词 对 PDMS 查询 应 答 的 影响 。 

定理 17.3 令 P 是 PDMS， 满 足 定理 17.2 中 第 一 个 着 重 号 标明 的 条 件 ，0Q 是 了 上 的 合 
取 查 询 。 

1) 如 果 比 较 谓 词 仅 出 现在 存储 描述 中 或 定义 映射 的 主体 中 ， 而 未 出 现在 P, RA 
RE Q 的 所 有 确定 结果 可 以 在 多 项 式 时 间 内 完成 。 
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2) 否则 ， 如 果 查 询 包含 比 较 谓 词 ， 或 者 比较 谓词 出 现在 非 定义 对 等 映射 中 ， 那 么 判 
LAB t LEA Q 的 确定 结果 为 co-NP 完全 问题 。 


17.4 查询 重 写 算法 


现在 介绍 PDMS 中 的 查询 重 写 算 法 。 算 法 的 输入 是 一 个 PDMS，P， 及 其 存储 描述 和 
对 等 映射 ， 以 及 P 上 的 合 取 查询 0。 输 出 为 把 0 重 写 到 P 的 存储 关系 上 的 表示 O ， 它 仅 涉 
及 存储 关系 。 为 了 对 Q 做 出 应 答 ， 我 们 需要 在 存储 关系 上 执行 0'， 这 可 以 借用 第 8 章 介 
绍 的 技术 来 完成 。 

我 们 介绍 的 算法 有 两 条 性 质 与 之 前 讨论 的 计算 复杂 度 有 关 。 首 先 ， 算 法 具有 正确 性 : 
在 存储 关系 上 执行 0' 只 会 产生 Q 的 确定 结果 。 第 二 ， 当 对 等 描述 无 环 时 ， 算 法 具有 完备 
性 ， 执 行 0' 将 产生 所 有 的 确定 结果 。 

关于 算法 的 输入 ,假定 了 中 所 有 形 如 Q =Q, 的 对 等 映射 都 蔡 换 为 0, CQ, HQ, 2Q, 
映射 对 。 同 时 假定 包含 依赖 左边 有 一 个 单 原子 。 只 需 把 形 如 Q, CQ, 的 描述 替换 为 VC 0， 
和 了 :- Q, 对 就 可 以 了 ， 其 中 了 是 PDMS 中 没有 出 现 过 的 新 谓词 。 

查询 重 写 的 主要 挑战 在 于 ， 我 们 需要 交替 地 重 写 定 义 映 射 的 重 写 ， 这 要 求 展开 查询 
(以 GAV 重 写 的 风格 ) ， 我 们 还 需要 重 写 包含 映射 ， 这 又 要 求 使 用 视图 对 查询 做 出 应 答 
(以 LAV 重 写 的 风格 ) 。 在 讨论 如 何 结合 这 两 种 类 型 的 重 写 之 前 ， 首 先 单独 进行 考虑 。 

考虑 一 个 PDMS， 其 所 有 的 对 等 映射 都 是 定义 映射 。 此 时 的 查询 重 写 就 是 简单 的 规则 目标 
树 重 写 。 规 则 目标 树 包含 目标 节点 ， 即 标 有 对 等 关系 ( 内 部 节点 ) 和 存储 关系 (叶子 节点 ) 的 
原子 ， 以 及 规则 节点 ， 它 上 面 标 有 对 等 映射 和 存储 描述 ( 见 图 17-3)。 树 根 是 目标 节点 ， 表 示 
查询 O 的 头 部 。 用 头 部 与 目标 节点 一 致 的 定义 映射 来 扩展 树 的 每 个 目标 节点 ,算法 以 此 不 断 推 
进 。 当 树 中 的 节点 都 无 法 再 用 对 等 映射 进行 扩展 时 ， 我 们 考虑 存储 描述 并 创建 叶子 节点 。 


例 17.4 考虑 图 17-3 的 示例 。 树 根 是 查询 ， 其 孩子 节点 是 合 取 式 。 每 个 合 取 式 都 用 
对 等 映射 (分 别 为 r。 和 7,) 进行 扩展 ， 得 到 4 个子 目标 。 接 下 来 用 存储 描述 7, 和 六 对 这 
些 子 目标 进行 重 写 。 得 到 的 结果 是 叶子 节点 的 合 取 式 。 


Q(f,f;) 查询 : 
Q(f;,f2):-SameEngine(f,,f2,e), 


SameSkill(f,,f2) 


SameEngine(f,,fo,e) SameSkill(f,,f2) 
a | “” WDA: 
r i fo: SameEngine (f,,f2,e) :—AssignedTo(f4,e) 
0 1 
二 a AssignedTo(lf2,e) 
AssignedTo(f,,e) AssignedTol(f,,e) Skill(f1,s) Skill(f,s) 


| | "4? SameSkill(fy f2) :~Skil(f,s),Skill(fz,s) 


T > 4 存储 描述: 
| | | r2: S4(x,y) c AssignedTo(x,y) 
S1(f1,e) Si(f2,e) Sa(fi,s) Saz(fz,s) r3 : S(x,y) © SameSkill(x,y) 
图 17-3 ”只 含 定义 对 等 映射 的 PDMS 的 规则 目标 树 ey 


现在 考虑 PDMS 的 对 等 映射 都 是 闭 包 映 射 的 情况 。 这 种 情况 下 ， 我 们 从 查询 子 查 询 开 
始 ， 使 用 视图 对 查询 做 出 应 答 〈 见 3.2.3 节 ) 。 我 们 可 以 用 一 个 子 查询 替换 多 个 子 查询 。 


<< 
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例 17.5 举 一 个 简单 例子 ,假定 查询 如 下 所 示 。 

Q(f1, f2) :- SameEngine(f;, f2,e), Skill(f1,s), Skill(fz, s) 
对 等 映射 为 : 

SameSkill(f1,f2) © Skill(f1,s), Skill(f2,s) 


重 写 的 第 一 步 ， 用 一 个 单独 的 子 查询 SameSkill 替换 查询 中 的 两 个 子 目 标 。 


Q' (f1, f2) :- sameEngine(f1,f2,e),Sameskill(f1,f2) <<< 


一 直 进 行 这 样 的 重 写 直 到 无 法 再 对 任何 对 等 映射 进行 重 写 为 止 ， 接 下 来 ， 与 前 面 的 算 
法 一 样 ， 考 虑 存储 描述 。 由 此 看 来 ， 两 种 重 写 的 主要 区 别 在 于 ， 一 种 是 用 多 个 子 查询 替换 
一 个 子 查询 〈 定 义 重 写 ) ， 另 一 种 则 用 一 个 单独 的 子 查询 替换 多 个 子 查 询 (包含 重 写 ) 。 
算法 通过 构建 规则 目标 树 ， 把 两 种 重 写 结合 起 来 ， 注 意 树 中 的 某 些 节点 会 被 标记 为 覆盖 了 
其 叔叔 节点 。 下 面 举例 阐释 算法 。 


例 17.6 图 17-4 举例 说 明了 查询 重 写 算 法 。 查 询 0， 要 找 出 具有 某 种 技能 的 消防 队 
员 。 它 扩展 为 3 个 子 查询 ， 每 一 个 子 查询 都 是 一 个 目标 节点 。SameEngine 对 等 关系 (K 
示 消 防 员 的 操作 技能 ) 包含 于 一 个 单独 的 定义 对 等 描述 m 中 ， 因 此 我 们 用 规则 m 来 扩展 
SameEngine 目标 节点 ， 它 的 孩子 节点 是 两 个 AssignedTo 对 等 关系 (每 个 指明 一 个 单独 
的 消防 员 的 技能 ) 的 目标 节点 。 


Q(f, fa) 查询 : 
@) Qtf f2) - SameEngine(f,,f,,e), 
Skill(f1,s), Skill(f2,s) 
对 等 描述 : 
SameEngine(f1, f2, €) :- AssignedTo(f,,e), 
SameEngine(f,,fo,e) oo s) Siff; s) AssignedTo(fz,e) 

®) SameSkill(f;, f2) © Skill(f;,s), Skill(fo,s) 

Gf 9 存储 描述 : 

OD gee 
AssignedTo(f,,e) AssignedTo(f,,e) (3 So(f;, f2) = SameSkill(f;, fy) 

重 写 后 的 查询 : 


Qfysfa) += Sy(fy,e,_), Sy(fo.e._), So(fy.fo) U 
Sie) Silfze,) Sz(fify) Solfo) Stem) Silfa.e.), Sa(fz,f) 


图 17-4 应 急 服务 领域 的 目标 规则 树 重 写 。 虚 线 表 示 节 点 包含 于 unc 标签 中 


Skill 关系 出 现在 包含 对 等 映射 + 的 右边 。 因 此 ， 用 规则 节点 7 扩展 Skill(f ，s) ， 并 
为 其 创建 孩子 节点 来 标记 六 的 左边 SameSkill(f,，f,)。 然 而 ， 这 样 一 来 ，SameSkill 原 
子 也 覆盖 了 Skill(f,，s) 子 查询 ， 而 这 是 节点 7) 的 叔叔 节点 。 图 中 用 虚线 标注 这 种 覆盖 
关系 ,在 算法 中 用 unc 来 表明 这 种 关系 。 

因为 对 等 关系 Skill 包含 于 一 个 单独 的 对 等 映射 中 ， 所 以 不 需要 进一步 扩展 子 查 询 
Skill(f, ，s)。 注 意 ， 我 们 必须 再 次 应 用 映射 n 翻转 头 部 变量 ， 因 为 SameSkill 也 许 不 是 
对 称 的 (因为 是 C 不 是 =). 

此 时 ， 不 能 再 进一步 重 写 对 等 映射 ， 故 考虑 存储 描述 。 我 们 为 树 中 的 每 个 对 等 关系 
(S, A S) 找 出 存储 描述 ， 并 生成 最 终 重 写 结果 。 在 这 个 简单 的 示例 中 ， 只 涉及 一 层 对 等 
映射 ， 但 是 一 般 来 说 ， 树 可 以 是 任意 深度 的 。 <<< 
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算法 第 一 步 ， 如 算法 15 所 示 ， 从 查询 定义 人 手 构建 规则 目标 树 。 用 定义 映射 或 包含 
映射 扩展 目标 节点 直到 到 达 存 储 关系 。 节 点 上 的 标签 表明 每 一 步 扩 展 覆 盖 了 哪些 祖先 和 叔 
叔 子 查询 。 注 意 ， 为 了 避免 环 ， 在 向 下 的 路 径 中 算法 对 同一 对 等 映射 最 多 使 用 一 次 。 

当 考 虑 包含 映射 时 ， 算 法 创建 MCD。 回 想 MiniCon 算法 ( 见 2.4.4 节 ) ， 当 考虑 合 取 
查询 Q 和 视图 了 时 ，MCD 是 0 的 最 小 子 查询 集 ， 如 果 了 是 由 @ 重 写 的 ， 那 么 MCD 将 被 V 
覆盖 。MCD 的 其 他 原子 将 成 为 树 中 规则 节点 的 叔 板 节点 ， 我 们 用 unc 标记 出 来 = 。 

算法 第 二 步 ， 如 算法 16 所 示 ， 从 规则 目标 树 了 进行 重 写 。 做 法 是 在 存储 关系 上 合并 
合 取 查 询 。 每 个 合 取 查询 代表 一 种 从 节点 上 的 关系 表 获 得 查询 结果 的 方式 。 每 个 查询 可 能 
产生 不 同 的 结果 ， 除 非 存在 副本 资源 。 


算法 15 PDMS 构建 树 : 构建 重 写 规则 目标 树 
输入 : PDMS P; P 上 的 合 取 查询 Qo 
输出 : 规则 目标 树 。 
U 创建 规则 目标 树 了 
添加 目标 节点 作为 了 的 根 节点 ，root(T)， 标 记 为 Q(X) 
添加 root(7) 的 孩子 节点 r， 标 记 上 查询 0(X) 的 定义 规则 
for Q 的 每 个 子 查询 g do 
创建 r 的 规则 目标 子 节点 ， 标 记 为 g 
end for 
while 了 的 目标 节点 还 可 扩展 do 
对 于 T 了 中标 有 1(n) =p(Y)， 且 p 不 为 存储 关系 的 叶子 节点 ， 记 为 n 
ifp 出 现在 定义 描述 r 的 头 部 and r 不 是 于 的 祖先 节点 then 
U 定义 扩展 
用 7 的 头 部 统一 表示 p(Y) EHER, BAr 
ALn) = 创建 孩 子规 则 节点 n, 
HEH Ug) =g 的 r"， 针 对 每 个 子 查 询 g， 创 建 n, 的 孩子 目标 节点 
else if p 出 现在 包含 描述 的 右边 或 存储 描述 + Ww VCQ, and r 不 是 nn 的 祖先 节点 then 
U 包含 扩展 
En 的 父亲 节点 的 孩子 节点 为 nl ，…，n,， 对 应 的 标签 记 为 pj e, Pa 
for 能 被 创建 为 针对 p(Y) 的 关于 pi，…，p。 和 7 形式 的 MCD do 
记 V(Z) 是 MCD 创建 的 原子 
针对 标记 为 r 的 节点 n， 创建 孩子 规则 节点 n,， 并 对 标 有 V(Z) 的 节点 n,， 创 建 孩子 目标 
节点 n 
设置 une(m ) 为 MCD 覆盖 的 子 查询 集 
end for 
end if 
end while 
return 7 





首先 考虑 仅 使 用 定义 映射 的 简单 情况 。 在 这 种 情况 下 ， 重 写 就 是 合 取 查询 的 结合 ， 每 


O 注意 在 某 些 情况 下 ，MCD 可 能 会 覆盖 其 父 节 点 的 堂 兄弟 或 扳 叔 节点 ， 而 不 仅仅 是 它 自 己 的 叔 板 节点 。 为 了 
阑 述 方便 ， 忽 略 讨论 细节 。 但 注意 我 们 不 会 因此 违背 完备 性 。 最 坏 情况 下 的 合 取 重 写 形式 包含 多 余 原子 。 
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一 个 都 带 有 头 部 Q(X) 和 主体 ， 构 造 如 下 。7' 是 7 的 叶子 节点 的 子 集 ， 通 过 自 顶 向 下 遍历 
树 ， 在 目标 节点 处 选择 一 个 单独 的 孩子 节点 及 给 定 规则 节点 处 选择 所 有 孩子 节点 来 构造 
7'。 合 取 查 询 的 主体 就 是 7 中 所 有 节点 的 合 取 式 。 
为 了 给 包含 扩展 留 出 空间 ， 我 们 这 样 来 创建 合 取 查询 。 在 创建 了 时 ， 对 于 目标 节点 仍 选 
择 单 独 的 孩子 节点 ， 但 不 必 选 择 规则 节点 g 的 所 有 孩子 节点 。 给 定 规则 节点 g&， 只 需 选择 g 
的 孩子 节点 的 子 集 g, s go 使 得 unc(g,)U…Uunc(g1) 包含 g 的 所 有 孩子 节点 。 


算法 16 PDMS -构造 - 重 写 : 创建 PDMS 重 写 的 输出 结果 


输入 : PDMS 建树 算法 构建 的 规则 目标 树 。 
输出 : 合 取 查询 集 。 
AA=aD 
向 4 中 添加 任何 形 如 Q(X): -B 的 合 取 查询 ， 其 中 BB 是 子 查询 的 合 取 式 ， 能 按照 如 下 方式 构造 : 
初始 化 列表 s， 包含 了 的 根 节 点 
while 该 列表 包含 了 中 的 非 叶子 节点 do 
ges PRATT HA 
As PHB g 
证 5 是 目标 节点 then 
选择 g 的 一 个 孩子 节点 ， 将 其 添加 到 s 中 
else if g 是 定义 规则 节点 then 
把 g 的 所 有 和 孩子 节点 添加 到 s 中 
else if g 是 包含 规则 节点 then 
选择 g 的 孩子 节点 子 集 j，…，Bg1， 其 中 Unc (g) U…Uune (g,) 包含 g 的 所 有 和 孩子 节点 ， 
Bi, 7, gi 添加 到 s 中 
end if 
end while 
return A 











17.5 组 合 映射 


上 面 介 绍 的 查询 重 写 算法 当 遇 到 节点 或 对 等 映射 很 多 的 PDMS 时 ， 构 建 出 来 的 规则 目 
标 树 可 能 会 非常 大 。 为 了 提高 PDMS 查询 应 答 效率 ， 需 要 许多 优化 技术 。 例 如 ， 我 们 需要 
按照 智能 的 顺序 来 扩展 树 的 节点 ， 以 剪 去 那些 仅 产生 多 余 结 果 的 路 径 ， 并 运用 自 适 应 方法 
( 见 第 8 章 ) 以 流 方式 向 用 户 提供 结果 。 

另 一 个 非常 重要 的 优化 就 是 组 合 对 等 映射 ， 从 而 把 长 路 径 压 缩 成 单 边 。 组 合 映射 节省 
了 重 写 时 间 ， 也 能 帮助 剪 掉 那 些 乍 看 起 来 很 好 但 最 终 没 有 产 出 的 路 径 。 从 逻辑 的 角度 来 
看 ， 组 合 模式 映射 本 身 其 实 是 一 个 很 有 趣 的 问题 。 在 数据 交换 〈 见 10.2 节 ) 场景 中 ， 当 
数据 交换 可 能 经 历 跨 多 系统 的 长 路 径 时 ， 这 也 是 一 个 重要 的 问题 。 

下 面 简 单 看 看 组 合 模式 映射 问题 。 假 定 有 资源 4、B 和 C，4、B 之 间 存 在 对 等 映射 

M, B, C 之 间 存 在 对 等 映射 Mc。 我们 的 目标 是 找 出 4、C 之 间 的 映射 Mic， 它 产生 的 

结果 总 是 与 经 过 Ms 映射 再 经 过 Mac 映射 的 结果 相同 。 

在 组 合 映射 的 形式 化 定义 中 ， 源 4、B 之 间 有 模式 映射 M， 它 定义 了 4 的 实例 和 B 的 
实例 之 间 的 二 元 关系 M. KAM" 包含 (a, b) 关系 对 ,其 中 ae1(4) Hbel(b), a 和 
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b 在 映射 M 下 是 一 致 的 〈 见 3.2.1 节 )。 形 式 化 定义 要 求 Mc 是 映射 We 和 Mac 的 连接 。 
定义 17.4 (映射 组 合 ) A BL C 是 数据 源 ，Ms 是 4、B 之 间 的 映射 ，Mgc 是 B、C 
之 间 的 映射 。 一 个 映射 Mc 称 为 是 Mp 和 Mpc 的 组 合 ， 如 果 满 足 
Mic = Mis x Mic 
寻找 映射 的 组 合 是 一 件 很 棘手 的 事 。 下 面 的 示例 阐释 了 原因 。 


例 17.7 考虑 下 面 的 模式 映射 ， 每 个 源 分 别 有 一 个 单独 的 关系 4、B、C。 


Map A(%Z),A(Z,y) © B(x,y) 
MBc B(x,z),B(z,y) © C(x,y) 
每 个 关系 可 以 看 做 存储 了 有 向 图 的 边 集 。 映 射 Ms 表明 A 中 长 度 为 2 的 路 径 是 B 中 边 
WFR, My #214 B 中 长 度 为 2 的 路 径 是 C 中 边 的 子 集 。 
很 容易 证 明 下 面 的 映射 表示 My 和 Msc 的 组 合 。 映 射 表 明 A 中 长 度 为 4 的 路 径 是 C 中 
边 的 子 集 。 


M A(x,21), (Zz1,22), A(Z2,23), A(z3,y) © C(x,y) <<< 


例 17.7 用 GLAV 形式 的 映射 表示 组 合 ， 即 其 语言 与 被 组 合 的 映射 所 用 的 语言 相同 。 
你 自然 会 问 表示 映射 的 语言 在 组 合 操作 下 是 否 是 闭合 的 。 具 体 地 说 ，GLAYV 形式 的 映射 是 
否 总 能 以 GLAV 形式 来 表示 ? 

这 个 问题 的 答案 取决 于 组 合 映 射 的 方式 。 在 例 17.7 中 ,映射 没有 引入 任何 新 的 已 知 
变量 。 具 体 地 说 ， 所 有 出 现在 映射 右边 的 变量 也 出 现在 其 左边 。 结 果 证 明 ， 这 个 条 件 对 于 
是 否 能 用 GLAV 形式 来 表示 GLAV 映射 的 组 合 映 射 这 一 问题 至 关 重要 。 我 们 不 加 以 证 明 ， 
给 出 下 面 的 定理 (详情 参见 参考 文献 注释 ) 。 

EHH, RIIE GLAV 模式 映射 的 一 个 式 子 是 完全 (full) 的 ， 如 果 满 足 映射 右边 不 
含 左边 未 出 现 的 变量 。 

定理 17.4 Migs 和 Mac 是 由 GLAV 映射 的 有 限 集 表示 的 映射 。 如 果 Mg 的 所 有 式 子 都 
是 完全 的 ， 那 么 Misp 和 Mic 的 组 合 映射 可 以 用 GLAV 式 子 的 有 限 集 表 示 。 判 定 一 个 GLAV 
式 子 是 否 包含 在 Mip 和 Mgc 的 组 合 映射 中 ， 可 以 在 多 项 式 时 间 内 完成 。 

其 实 ， 定 理 17. 4 描述 了 高 效 地 组 合 映 射 的 一 个 相当 严格 的 条 件 。 从 下 面 的 例子 可 以 
看 到 ， 两 个 有 限 GLAV 映射 的 组 合 可 能 需要 无 数 的 式 子 。 


例 17.8 在 这 个 例子 中 ,资源 有 两 个 关系 R 和 G, 分别 表示 红 边 和 绿 边 。 资 源 4 
和 C 也 各 有 两 个 关系 。 考 虑 下 面 的 映射 : 


Map {Arg(X,y) E R(x, X1), G(X1,Y) 
Agg(X,y) E G(X,Xx1), G(x1,y)} 
Mge {R(X,X1),G(X1,X2), G(x2,) E Crgg (x,y) 
G(x, x1), G(x1,Y) E Cgg (x, y)} 
关系 A 是 B 中 由 红 - RUTTER MTR. ER Ao Bof C。。 同 理 。 可 以 看 
出 ， 下 面 的 无 限 式 子 序列 都 包含 在 Ms 和 Msc 的 组 合 映射 中 。 


O ”正如 前 面 提 到 的 ，CLAYV 式 子 类 似 于 元 组 产生 的 依赖 关系 。 对 应 在 那个 术语 中 ， 一 个 完全 的 式 子 就 是 一 个 完 
全 的 依赖 。 
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Agg (XY) € Cgg(X,y) (17-1) 

Arg (x, x4 ), Agg (X1 »X2) Cc Crag (%Y1 ) (17-2) 

Arg(X,X1), Agg(X1,X2), Agg(X2,X3) ES Crgg(X,y1),Cgg(Y1 yz2) (17-3) 
Arg(X,X1), Agg (X1,X2) heeej Agg (Xn: Xn+1) ‘= Crgg (X,Yy1 )， Cgg(¥1,Y2) pr Cgg(Yn—1) Yn) (17-4) 


<< 


该 序列 是 无 限 的 。 无 限 序列 中 的 每 个 式 子 表示 含 一 条 红 边 ， 紧 跟 2n + 1 条 绿 边 的 路 径 
(A 上 的 查询 ) 包含 在 含 一 条 红 边 紧 跟 2n +2 绿 边 的 路 径 (C 上 的 查询 ) 。 每 一 个 式 子 都 
不 能 由 其 他 式 子 表示 。 例 如 ,， 式 (17-3) 不 能 由 式 (17-1) 和 式 (17-2) 表示 。 

下 面 的 定理 形式 化 地 说 明了 例 17. 8 的 思想 ， 它 表明 只 要 Ms 在 式 子 右边 含 现 有 变量 ， 
那么 组 合 映射 也 许 就 无 法 用 CLAV 式 子 的 有 限 集 来 表示 。 

定理 17.5 MARA Mif Mec, ŽP Migs 是 GLAV 式 子 的 有 限 集 ，Mac 是 完全 GLAV 
式 子 的 有 限 集 ， 则 Mig 和 Msc 的 组 合 映射 不 能 通过 CLAV 式 子 的 有 限 集 来 定义 ， 但 是 可 以 
通过 GLAV 式 子 的 无 限 集 来 定义 。 

实际 上 ， 高 效 计算 对 等 映射 的 组 合 是 有 可 能 的 。 然 而 ， 查 询 应 答 时 切记 谨慎 使 用 组 合 
映射 ， 因 为 它们 可 能 进一步 扩大 搜索 空间 。 


17.6 采用 松散 映射 进行 对 等 数据 管理 


目前 为 止 ， 我们 把 对 等 数据 管理 作为 数据 集成 系统 的 推广 进行 了 讨论 。 系 统 是 基于 节 
点 对 (或 小 集合 ) 之 间 的 对 等 映射 ， 而 不 是 数据 源 和 中 介 模 式 之 间 的 映射。 正如 前 面 描述 
的 那样 ， 与 虚拟 数据 集成 系统 相 比 ， 这 种 系统 已 经 相当 灵活 了 。 然 而 ， 为 了 这 样 的 灵活 
性 ， 协 作者 仍然 需 创 建 模 式 映 射 ， 而 这 是 一 项 劳动 密集 型 任务 。 

本 节 介 绍 两 种 松散 模型 ， 供 多 个 团体 协作 ， 它 们 不 需要 完全 的 对 等 映射 。 当 然 ， 节 点 
之 间 的 关系 说 明 得 越 模糊 ， 可 以 执行 的 查询 就 越 少 ， 结 果 的 准确 度 也 会 降低 。 然 而 ， 在 某 
些 应 用 中 ， 能 从 其 他 节点 获得 一 些 数据 也 总 好 过 一 无 所 获 。 

第 一 种 方法 通过 近似 技术 (思想 同 第 5 章 ) 来 推断 节点 之 间 的 关系 。 第 二 种 方法 用 映 
射 表 来 指明 数据 层 的 映射 关系 。 当 然 ， 在 实际 中 ， 有 的 系统 在 某 些 节点 上 包含 准确 的 映 
射 ， 并 结合 使 用 下 面 介绍 的 技术 。 


17.6.1 基于 相似 度 的 映射 


考虑 一 个 PDMS， 其 中 每 个 节点 n 都 有 一 个 节点 邻 域 ， 邻 域 中 的 节点 都 能 与 n 进行 通 
fio Am, E n 和 它 的 邻居 之 间 不 需要 对 等 映射 ， 因 此 查询 重 写 和 查询 应 答 将 通过 nn 及 其 
邻居 之 间 的 模式 元 素 的 近似 映射 来 进行 。 


算法 17 PDMS 相似 度 : 计算 PDMS HUE, BM sim 计算 关系 名 对 或 属性 名 
对 之 间 的 相似 度 。 参 数 SAU 





输入 : PMDS P; 万 中 的 节点 ni 万 上 的 查询 Q(X) ;结果 及 的 收集 器 (初始 为 空 ) 。 
MH: 包含 最 终结 果 的 及 。 
AX) 形 如 p(X)， 其 中 p 为 n 的 模式 下 的 关系 ,41，…， A Zp 的 属性 
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求 nn 的 存储 关系 之 上 的 OX); 把 结果 添加 到 及 中 
for n 的 每 个 邻居 节点 n do 
sim(r, p) 表示 关系 rem 和 pp 之 间 的 相似 度 
sim(A,, B) 表示 属性 A, 和 n, 上 的 属性 B 之 间 的 相似 度 


for 满足 sim (r, p), sim(B,, A), =, sim(B,, AL) >r 的 每 个 原子 r(B ，…， B) do 
call PDMS-Similarity (P, r(B,, +, B), m, R) 


end for 





end for 


具体 说 来 ， 假 定 用 户 在 n 上 提出 原子 查询 p(X)，n, 是 的 邻居 。 我 们 计算 n 的 关系 名 
和 nn' 的 关系 名 之 间 的 相似 度 ， 以 及 p 的 属性 名 和 n' 的 属性 名 之 间 的 相似 度 。 如 果 我 们 找到 了 
一 个 与 p 高 度 近似 的 关系 p'en, WRS p 的 属性 4, ，…，4, 相似 的 p' 的 属性 B, ，…，B,， 
那么 就 可 以 以 p'(Y) 的 形式 重 写 查 询 p(X)。 注 意 这 里 不 需要 覆盖 p 的 所 有 属性 。 如 果 p/P 
没有 与 p 的 每 个 属性 都 对 应 的 属性 ， 重 写 时 直接 忽略 缺失 的 属性 。 算 法 17 介绍 了 基于 这 种 策 
略 的 查询 重 写 。 

我 们 可 以 用 六 的 邻居 递归 地 进行 下 去 ， 从 而 获取 更 多 结果 。 注 意 因 为 我 们 不 一 定 找 
出 了 重 写 查询 的 所 有 属性 ， 随 着 路 径 变 长 ， 产 生 的 结果 可 能 更 有 限 ， 甚 至 没有 结果 。 


17.6.2 映射 表 


这 种 机 制 仅 描述 数据 层 的 对 应 。 与 第 7 章 介 绍 的 一 样 ， 数 据 层 映射 在 数据 集成 应 用 中 
往往 是 至 关 重 要 的 ， 因 为 数据 源 往往 是 以 不 同方 式 来 表示 真实 世界 中 的 相同 对 象 ， 而 且 ， 
为 了 集成 数据 我 们 必须 知道 哪些 值 能 匹配 。 

这 种 场景 中 广泛 利用 了 映射 表 。 在 最 简单 的 情况 下 ， 映 射 表 可 以 指明 真实 世界 同一 对 
象 的 不 同 引 用 之 间 的 对 应 关系 。 更 进一步 ， 映 射 表 可 用 来 描述 不 同 词典 之 间 的 对 应 关系 。 
例如 ,假定 有 两 个 航空 公司 的 航班 表 ， 如 图 17-5 所 示 。 图 17-6 中 的 映射 表 描 述 了 它们 之 
间 的 映射 关系 ， 这 对 于 航空 公司 通过 代码 共享 航班 是 非常 有 必要 的 。 再 进一步 ， 我 们 可 以 
创建 映射 表 来 描述 完全 不 同 领域 的 元 素 之 间 的 对 应 关系 。 例 如 ， 共 享 生物 学 数据 时 ， 可 创 
建 映射 表 把 基因 ID 和 相关 蛋白 质 关联 起 来 。 




















美 联 合 航空 公司 航班 
| ”航班 号 | 出 发 地 | ”目的 地 | 起 飞 时 间 | 到 达 时 间 | 
| UA292 | JFK | SFO | 8AM | 11:30AM 
UA200 EWR LAX 9AM 12:30PM 
UA404 YYZ SFO 
a) 
加 拿 大 航空 公司 航班 





出 发 地 | 目的 地 | 起 飞 时 间 | ”到达 时 间 “| ”航班 机 型 
Boeing 747 





Airbus 320 











图 17-5 两 个 不 同 节点 的 航班 表 ( 美 联合 航空 公司 和 加 拿 大 航空 公司 ) 


430 


316 第 三 部 分 新 型 集成 系统 


























航班 代码 映射 
美 联 合 航空 航班 代码 | 加 拿 大 航空 航班 代码 
UA292 AC543 
UA200 AC505 
UA404 AC303 
v-{UA001-UA500} | v- {CA001—CA500) 











图 17-6 17-5 航班 表 的 映射 表 


直观 地 来 看 ， 映 射 表 表示 不 同 节点 的 表 之 间 可 能 的 连接 关系 。 根 据 这 样 的 连接 ， 某 节 
点 的 用 户 不 需要 模式 映射 就 可 以 从 其 他 节点 获取 数据 。 例 如 ， 图 17-5a 表示 美 联 合 航空 公 
司 的 航班 ， 图 17-5b 表示 加 拿 大 航空 公司 的 航班 。 注 意 美 联合 航空 公司 没有 存储 航班 机 型 
(或 许 它 把 航班 机 型 信息 存储 在 其 他 表 中 )。 用 户 可 以 在 美 联 合 航空 公司 节点 上 查询 所 有 关 
于 航班 UA404 的 信息 。 有 了 这 个 映射 表 ， 系 统 可 以 在 加 拿 大 航空 公司 节点 上 用 航班 ID303 
重 写 查询 。 加 拿 大 航空 公司 节点 存储 了 机 型 信息 。 

更 形式 化 地 ， 我 们 在 关系 尺 和 R, 之 间 定 义 了 映射 表 M, BER M 有 两 个 属性 4 和 
A,, HPA, ER, 的 属性 ，4, 是 R 的 属性 。 原 则 上 ，M 可 以 有 任意 多 个 属性 ，R, 元 组 的 
投影 和 R, 元 组 的 投影 之 间 的 映射 ,为 简便 起 见 这 里 只 考虑 简单 情形 。 我 们 用 D, 表示 A, 
的 域 ,， 用 D, 表示 A, 的 域 。 假 定 字母 变量 > KR D, UD, 中 不 相交 的 部 分 。 

定义 17.5 (映射 表 ) 两 个 关系 RI FR 之 间 的 映射 表 MM， 具有 两 个 属性 A 和 A, 
其 中 列 的 取 值 如 下 : 

© D HP (ÆA PIL) RAD, HR (AA, 列 上 )， 或 者 

e 一 个 变量 veV, 或 者 

© 形 为 v-C 的 表达 式 ， 其 中 C 是 DD HRA (A, 上 ) HARRA D, 的 取 值 (在 

A, 上 ) 的 有 限 集 。 
我 们 假定 每 个 变量 最 多 出 现在 M 的 一 个 元 组 中 。 


例 17.9 考虑 图 17-6 的 映射 表 。 前 三 行 表 示 美 联合 航空 公司 和 加 拿 大 航空 公司 的 指 
定 航班 之 间 的 对 应 关系 。 第 四 行 简洁 明了 地 指出 那些 航班 号 大 于 500 的 航班 ， 在 两 家 航空 
公司 的 代码 是 完全 相同 的 。 实 际 上 , 元 组 (x, x) 可 用 以 表示 相同 的 值 出 现在 两 张 表 中 ， 
它们 可 以 彼此 映射 。 = 


现在 考虑 映射 表 的 语义 ， 它 是 基于 值 代入 的 。 映 射 表 中 元 组 的 值 代入 就 是 用 值 替 换 变 
量 的 结果 。 我 们 可 以 用 D, 中 的 值 替换 出 现在 左边 列 的 变量 ， 用 D, 中 的 值 蔡 换 出 现在 右边 
列 的 变量 。 当 然 ， 如 果 某 个 元 组 中 不 含 任何 变量 ， 则 不 对 其 做 变换 。 

映射 表 的 形式 化 定义 表示 R 和 R 的 笛 卡 儿 积 的 子 集 ， 它 与 映射 是 一 致 的 。 

定义 17. 6 (映射 表 语 义 ) M(A,, A) RR, FR, 之 间 的 映射 表 。RI xR, 的 元 组 1 
与 MM 是 一 致 的 ， 当 上 且 仅 当 必 中 存在 元 组 1' 和 变量 替换 7， 满 足 [Ls (!) =7(1') 。 

映射 表 本 身 就 是 一 个 有 趣 的 研究 问题 。 就 模式 映射 而 言 ， 存 在 一 个 有 趣 的 问题 ， 是 否 
能 把 它们 组 合 起 来 从 而 发 现 新 的 映射 表 ， 以 及 映射 表 集 合 中 彼此 是 否 一 致 。 我 们 把 这 些 问 
题 留 在 参考 文献 注释 中 讨论 。 
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参考 文献 注释 


P2P 文件 共享 系统 的 出 现 启 发 了 数据 管理 研究 领域 把 P2P 架构 用 于 数据 共享 。 基 于 这 
种 想法 的 系统 有 [74，283，309，346，433 ，459，544，585 ] 。 人 们 也 试图 找 出 PDMS 和 
语义 Web[2，10，287] 架 构 之 间 的 关联 。 

描述 PDMS 中 对 等 映射 的 语言 以 及 查询 重 写 算法 都 摘自 [288] ， 其 中 介绍 了 Piazza 
PDMS。 优 化 算法 ， 包 括 在 重 写 时 忽略 多 余 路 径 的 方法 以 及 映射 组 合 的 影响 ， 在 [288， 
541] 中 有 相应 介绍 。 

组 合 模式 映射 问题 最 初 是 由 Madhavan 和 Halevy[408] 提 出 的 。 在 该 论文 中 ， 组 合 被 定 
义 来 包含 一 类 查询 和 多 种 计算 出 的 组 合 能 被 识别 的 受 限 情形 。 它 们 也 表明 GLAV 映射 的 组 
合 可 能 需要 无 数 个 式 子 。 我 们 描述 的 定义 是 基于 Fagin 等 人 [218 ] 的 工作 ， 定 理 17.4 和 定 
理 17.5 也 摘自 此 处 。 有 趣 的 是 ，Fagin 等 人 也 表明 GLAV 式 子 的 组 合 总 能 表示 为 有 限 个 二 
级 元 组 产生 依赖 ， 其 中 关系 名 也 是 变量 。Nash 等 人 [452 ] 提出 了 关于 组 合 的 更 为 复杂 的 结 
论 ， 并 且 在 [75] 中 Bernstein 等 人 描述 了 一 个 实际 实现 组 合 的 算法 。 组 合 这 个 概念 的 一 个 
变种 是 合并 多 个 局 部 映射 说 明 ， 正 如 MapMerge 操作 符 所 做 的 工作 一 样 [22 ] 。 

17. 6 节 描 述 的 松散 架构 摘自 [2，346，459 ] 。 [459] 详细 介绍 了 基于 相似 度 的 重 写 。 
映射 表 在 [346 ] 中 有 相关 介绍 ， 它 描述 了 Hyperion PDMS。 该 论文 考虑 了 其 他 几 个 关于 映射 
表 的 有 意思 的 小 细节 。 首 先 ， 该 论文 考虑 了 映射 表 的 两 种 语义 一 一 开放 世界 语义 和 封闭 世 
界 语义 。 在 封闭 世界 语义 中 ， 映 射 表 中 (X, Y) 对 的 出 现 表示 对 (或 Y) 不 能 与 任何 值 关 
联 起 来 ， 而 在 开放 世界 假设 中 就 能 。 未 出 现在 映射 表 中 的 值 的 语义 也 有 所 不 同 。 其 次 ， 该 
论文 考虑 了 组 合 映射 表 问 题 以 及 判定 映射 表 集 是 否 一 致 问题 ， 结 果 显 示 ， 一 般 来 说 ， 该 问 
题 是 映射 表 大 小 的 NP 完全 问题 。 另 一 个 相关 问题 是 跨 不 同 抽象 层 的 参与 者 进行 更 新 协调 ， 
详 见 [368 ] 。 传 播 此 更 新 的 一 种 方式 是 借助 触发 器 [341 ] 。 

Orchestra 系统 [268 ，544 ] 进一步 探讨 了 PDMS ， 并 重点 解决 多 个 数据 拥有 者 之 间 的 协 
作 问 题 。 为 了 促进 协作 ， 用 户 需要 独立 管理 其 数据 ， 根 据 需要 传播 更 新 ， 追 踪 数 据 源 ， 对 
想 要 本 地 导 人 的 数据 创建 并 应 用 信任 条 件 。 第 18 章 将 更 详细 地 谈 及 这 些 问 题 。 
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Principles of Data Integration 


支持 协同 的 集成 


本 书 到 目前 为 止 ， 我 们 关注 数据 创建 、 编 辑 (针对 数据 源 ) 和 数据 使 用 (通过 查询 ) 
分 开 的 数据 集成 场景 : 那些 通过 集成 系统 查询 数据 的 用 户 通 常 无 法 创建 和 更 新 数据 。 在 这 
些 场景 中 ， 用 户 基本 只 关心 能 够 发 出 查询 ， 得 到 结果 以 及 对 这 些 结果 进行 操作 。 在 商业 世 
界 ， 用 户 可 能 是 和 客户 联系 的 会 计 代 表 ; 在 科学 领域 ， 用 户 可 能 是 为 了 进行 试验 需要 咨询 
蛋白质 和 基因 数据 库 的 生物 学 家 。 

当然 ，Web 2. 0 应 用 ， 尤 其 是 维基 百科 ， 已 经 显现 出 一 种 完全 不 同 的 使 用 场景 ， 其 中 
用 户 自己 就 是 主要 的 数据 创造 、 管 理 和 维护 者 。 事 实 上 ， 这 些 场 景 在 更 广泛 的 应 用 中 也 是 
很 普遍 的 ， 例 如 在 科学 研究 社区 一 一 科学 家 发 布 数 据 、 从 另 一 个 大 的 组 织 信息 库 导 和信 数 
据 、 对 数据 进行 修改 。 在 这 些 协同 场景 中 ， 在 传统 的 数据 集成 方法 之 外 还 需要 考虑 一 系列 
问题 ， 从 对 更 新 和 标注 的 处 理 到 应 对 冲突 数据 和 不 同 的 用 户 视 角 。 


18. 1 协同 因 何 而 不 同 


我 们 首先 来 看 一 看 支持 协同 所 面临 的 主要 挑战 。 这 些 挑战 很 多 也 多 多 少 少 存在 于 其 他 
场景 中 ， 并 不 是 协同 中 独 有 的 一 一 但 它们 在 协同 场景 下 必须 以 一 种 更 系统 的 方式 来 处 理 ， 
因为 此 时 的 系统 具有 更 广泛 的 多 样 性 和 动态 性 。 





数据 创建 /编辑 上 的 关注 点 


协同 的 目的 通常 是 允许 不 同 的 用 户 一 起 增加 和 编辑 数据 ， 也 许 是 对 他 们 看 到 的 已 知 的 
查询 结果 的 回应 。 有 时 候 需 要 共享 的 数据 只 是 简单 的 来 自 表 或 者 单个 用 户 贡 献 的 XML X 
档 ， 但 是 在 很 多 案例 中 用 户 需 要 编辑 他 人 贡献 的 数据 。 这 种 情况 最 终 会 导致 诸多 问题 ， 璧 
如 并 发 和 冲突 管理 (不 同 用 户 可 能 对 同一 个 数据 做 出 了 冲突 的 更 新 ) 、 增 量 式 更 新 传播 ， 
其 至 是 数据 溯源 的 问题 ( 见 第 14 章 讨 论 的 议题 )。 


通过 用 户 反馈 来 修复 

一 个 特定 用 户 的 不 同行 为 可 能 是 错误 甚至 是 恶意 的 。 许 多 协同 工具 从 维基 百科 这 类 流 
行 的 服务 中 借鉴 思想 ， 支 持 编辑 中 的 校正 和 撤销 机 制 。 
数据 标注 的 必要 性 

在 分 享 数 据 中 ， 协 同 者 常常 想 做 出 评论 或 标注 ， 附 属于 数据 的 某 个 特定 子 集 。 这 些 标 
注 可 以 任意 地 复杂 ， 这 主要 取决 于 实际 情况 ， 可 以 包括 附件 、 讨 论 帖 和 溯源 。 它 们 不 是 对 
数据 库 数据 的 直接 修改 ， 而 是 附加 的 元 数据 。 
不 同 解释 、 置 信和 度 和 价值 评估 

在 一 个 协同 场景 下 ， 不 同 的 用 户 可 能 对 数据 领域 有 不 同 的 置信 度 ， 对 于 某 个 声明 有 不 


第 18 章 WEER 319 














同 的 信任 或 不 信任 标准 ， 对 于 观察 到 的 现象 也 有 不 同 的 假设 。 例 如 ， 在 科学 中 有 很 多 相对 
立 的 理论 。 同 样 ， 在 智能 和 商业 预测 中 可 能 有 多 个 视角 或 预言 。 一 个 使 协同 便利 的 系统 必 
须 考虑 这 些 因素 ， 比 如 ， 基 于 用 户 的 视角 或 权威 性 给 予 数据 相关 度 或 可 信任 性 等 级 ,或 者 
以 一 种 标准 化 的 方式 管理 冲突 。 

已 经 提出 了 一 系列 的 方法 来 尝试 解决 这 些 问题 。 我 们 将 关于 这 些 议题 的 讨论 划分 成 3 
个 大 类 。 在 18.2 节 ， 我 们 关注 于 特定 的 系统 ， 这 类 系统 的 数据 主要 来 自 : 自动 的 Web fE 
取 ， 或 者 来 自 外 部 数据 源 但 经 过 了 用 户 反 馈 或 者 输入 的 修正 。 接 着 在 18. 3 节 ， 我 们 考虑 
用 户 增加 数据 保管 (curation) 的 场景 ， 以 标注 和 讨论 的 形式 。 最 后 18. 4 WH FTA 
进行 数据 更 新 的 处 理 和 传播 。 


18.2 处理 校 正和 反馈 


分 布 在 互联 网 上 的 广泛 可 用 的 信息 有 很 多 不 同 的 场景 ， 从 不 同 质量 的 数据 源 到 提取 的 
难 易 ， 用 户 还 希望 能 够 对 数据 有 一 个 全 局 的 概览 。 以 下 是 值得 人 们 特别 关注 的 一 些 问题 : 
。 特定 主题 的 门户 ”这 里 数据 自动 地 从 不 同 数据 源 中 提取 且 用 于 生成 页 面 ， 例 如 数 
据 库 研究 社区 的 门户 或 者 提供 数 以 千 计 工作 搜索 站 点 的 门户 〈 用 于 生成 这 些 门户 
的 技术 见 15. 2. 1 节 和 15.3 节 ) 。 
e 本 地 搜索 服务 ”由 一 些 搜索 引擎 提供 ， 比 如 Google, Yahoo! 和 Bing， 这 些 服务 提 
供 饭 店 、 商 业 、 旅 游 胜地 和 其 他 围绕 某 个 特定 场所 的 搜索 。 这 使 得 它 越 来 越 像 特 
定 议题 的 入 口 。 此 外 ， 搜 索 提 供 商 正在 考虑 将 语义 加 入 到 本 地 搜索 中 。 
。 生物 信息 学 或 医学 信息 存储 ”通常 会 结合 一 系列 的 公共 数据 源 且 围绕 查询 系统 提 
供 一 个 Web 接口 。 
在 所 有 这 些 场景 中 ， 一 些 展现 给 全 体 用 户 的 数据 很 可 能 是 错误 的 ， 不 管 是 因为 源 数据 
有 误 (在 生命 科学 数据 中 这 是 常 有 的 事 )， 还 是 数据 通过 一 个 不 完美 的 过 程 来 自动 提取 ， 
还 是 数据 通过 不 正确 的 映射 或 连接 运算 来 结合 。 我 们 描述 了 两 个 不 同 的 模型 来 对 这 些 数据 
进行 纠正 。 对 这 两 个 模型 ， 我 们 都 假设 更 新 操作 只 能 由 权威 个 体 来 完成 ， 或 者 有 另 一 个 模 
块 可 以 在 应 用 更 新 之 前 确认 其 真实 性 或 声望 。 


18.2.1 直接 向 下 传播 的 用 户 更 新 


特定 主题 人 口中 常用 的 一 种 方式 可 以 看 做 是 对 Wikis 中 直接 编辑 模式 的 概括 。 在 数据 
收集 和 集成 流程 的 特定 阶段 ， 璧 如 在 一 些 信 息 抽 取 的 程序 运行 之 后 ， 视 图 呈现 给 了 终端 用 
户 。 这 些 视 图 被 管理 员 预 先 定义 好 且 仅 限 选择 和 投影 操作 ， 同 时 这 些 视图 被 强制 包含 基础 
关系 中 的 任何 主 属性 。 这 些 限 制 保证 视图 是 可 更 新 的 。 

现在 用 户 可 以 直接 对 视图 的 内 容 进行 更 新 。 这 些 更 新 将 被 物化 且 同 时 会 向 下 传播 到 所 有 
的 派生 数据 产品 。 源 数据 仍 未 改变 ， 但 是 相关 更 新 将 会 继续 使 用 ， 如 同 源 数据 被 更 新 一 样 。 

一 旦 管理 员 选 择 激活 此 功能 ， 这 个 基本 方法 就 允许 用 户 持 续 不 断 地 提供 更 新 。 然 而 更 
新 可 能 不 会 被 原始 数据 提供 者 或 信息 抽取 的 作者 知晓 。 


18.2.2 回溯 传播 的 反馈 或 更 新 


很 自然 ， 一 个 可 选 的 方法 是 尝试 对 真正 的 源 数据 进行 修改 〈 或 者 对 原始 查询 的 形式 
化 ) ， 对 用 户 反馈 进行 响应 。 如 果 用 户 反 馈 表现 为 对 数据 值 的 更 新 ， 那 么 一 个 常用 的 方法 
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就 是 支持 视图 更 新 操作 ， 此 时 ， 对 于 查询 输出 的 更 新 转化 为 对 视图 数据 源 的 一 系列 操作 。 
自 20 世纪 80 年 代 以 来 ， 视 图 更 新 的 问题 已 被 广泛 研究 ， 伴 随 的 主要 挑战 是 更 新 可 能 导致 
的 副作用 。 大 致 上 ， 副 作用 是 指 如 下 的 情况 : 如 果 我 们 要 对 一 个 视图 输出 完成 预想 的 改 
变 ， 我 们 必须 对 至 少 一 个 源 元 组 进行 更 改 。 然 而 ， 如 果 这 个 视图 因为 这 个 更 改 而 被 重新 计 
算 ， 那么 额外 的 元 组 将 在 输出 中 被 改变 (与 用 户 的 反馈 不 一 致 )。 例 如 ， 通 过 连接 这 些 修 
改过 的 元 组 而 创建 的 元 组 可 能 也 会 受到 影响 。 早 期 的 工作 探讨 了 何 种 限制 条 件 下 视图 可 更 
新 且 没 有 不 可 预期 的 副作用 。 最 近 ， 数 据 溯源 〈 见 第 14 章 ) 被 认为 对 于 决定 一 个 特定 的 
更 新 〈 甚 至 是 一 般 不 可 更 新 的 视图 ) 是 否 会 导致 副作用 是 有 效 的 。 由 此 产生 了 更 新 传播 的 
best effort 模型 。 

在 某 些 案 例 中 ， 用 户 删 除 操作 不 能 仅仅 解释 为 删除 源 元 组 ， 而 应 当 作为 一 类 特定 结果 集 
不 该 产生 的 反馈 。 例 如 ， 自 动 模式 对 齐 (automatic schema alignments) 或 提取 规则 用 来 产生 
输出 ,一 个 不 好 的 对 齐 或 规则 会 产生 无 效 的 结果 。 此 时 系统 应 当 学 会 不 去 使 用 该 对 齐 或 规则 
去 产生 输出 结果 。 这 可 以 通过 如 下 步骤 完成 。 假 设 对 每 个 规则 或 对 齐 均 给 予 一 个 评分 或 代 
价 ， 每 个 查询 结果 利用 这 些 基本 值 来 构成 评分 。 考 虑 到 查询 结果 的 反馈 ， 可 以 通过 在 线 学 习 
算法 来 调整 基本 评分 ， 最 终 将 超过 阔 值 的 结果 移 除 ， 以 使 它们 不 在 输出 中 出 现 。 


18.3 协同 标注 与 表达 


在 很 多 场景 下 内 容 的 集成 是 以 高 度 分 布 式 的 方式 完成 的 ， 未 来 这 种 趋势 更 加 明显 。 这 一 
点 在 即 付 即 用 (pay-as-you-go) 的 信息 集成 环境 中 得 到 了 充分 体现 ， 即 付 即 用 环境 下 系统 启 
动 时 仅 以 有 限 的 能 力 去 源 中 抽取 结构 化 信息 ， 寻 找 与 语义 相关 源 的 映射 并 查询 数据 。 

也 许 未 来 ， 多 个 用 户 从 某 些 源 中 提取 和 修饰 数据 。 其 他 人 也 许 收集 数据 或 者 推荐 一 些 
源 。 还 有 些 人 则 提供 特定 数据 的 评论 。 本 节 我 们 考虑 通过 协同 标注 来 支持 即 付 即 用 的 场 
景 ， 包 括 定义 映射 的 标注 和 简单 的 评论 。 即 付 即 用 和 轻 量 级 数据 集成 的 其 他 方面 已 在 第 15 
章 中 讨论 过 。 


18.3.1 映射 作为 标注 : 轨迹 


在 任何 数据 集中 ， 某 些 特定 的 数据 项 很 可 能 被 众多 用 户 使 用 ， 即 使 这 些 用 户 有 不 同 的 
信息 需求 。 直 观 上 ， 如 果 某 个 用 户 在 其 查询 中 定义 了 一 种 抽取 或 映射 此 数据 项 的 方法 ， 能 
将 其 “捕获 ”会 很 有 用 处 ， 这 样 未 来 某 个 用 户 就 可 以 利用 第 一 个 用 户 完成 的 工作 。 这 就 是 
轨迹 (trail) 背后 的 直观 认识 。 

一 个 轨迹 就 是 XML 数据 上 的 全 局 视图 映射 ， 其 中 XML 数据 是 利用 扩展 后 能 够 支持 关 
键 字 和 路 径 表 达 式 的 XPath 语言 来 表示 。 可 以 利用 它 将 一 个 关键 字 查询 映射 到 一 个 路 径 查 
询 ， 反 之 亦 然 ， 或 者 从 一 个 路 径 映 射 到 另 一 个 。 轨 迹 可 以 通过 挖掘 技术 或 通过 图 形 工具 发 
现 用 户 如 何 映射 数据 项 来 创建 。 

下 面 用 几 个 例子 来 解释 轨迹 ， 而 不 是 呈现 一 个 完整 的 语言 语法 规则 。 有 关 基 本 XPath 
的 讨论 见 11.3.2 节 。 


例 18. 1 考虑 一 个 Web 上 或 者 个 人 收藏 的 一 部 分 照片 库 ， 假设 关于 照片 的 元 数据 以 KML 
元 素 的 形式 存储 。 假 设 我 们 想 查 询 昨天 收 到 的 所 有 数码 相片 。 如 下 的 轨迹 也 许 会 有 用 。 
AG, KEF “photo” (AHH) 可 能 是 指 所 有 扩展 名 为 “. jpeg” 的 文件 : 


photo 一 //* .jpeg 
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H, KEEF “yesterday” (ER) 应 当 被 扩展 到 关于 日 期 属性 的 查询 ，yesterday() 函数 为 : 


yesterday 一 date = yesterday() 

最 后 ， 我 们 可 能 声明 “date” (日 期 ) 属性 也 应 当 扩 展 来 表示 “modified” 或 “re- 
ceived” 属 性 。 在 轨迹 中 ， 与 一 个 XML 元 素 相关 的 属性 或 特性 可 以 通过 . tuple. | attribute | 
语法 来 请 求 。 因 此 可 以 输入 : 

//* .tuple.date — //* .tuple.received 


上 述 表 明 我 们 将 “date” 属性 扩展 成 一 个 “received” 属性。 <<< 


当然 ， 一 个 给 定 的 查询 也 许 会 有 多 个 轨迹 与 其 匹配 ， 一 般 而 言 每 个 都 必须 扩展 以 便 得 
到 候选 结果 。 在 实际 场景 中 ， 轨 迹 也 许 会 给 予 不 同 的 评分 ， 我们 希望 返回 得 分 最 靠 前 的 结 
果 而 不 是 所 有 结果 。 

假设 用 户 愿意 分 享 他 们 的 查询 或 映射 操作 (也 就 是 说 ， 他 们 不 要 求 任何 机 密 性 )， 那 
么 对 于 即 付 即 用 的 集成 而 言 轨迹 是 一 个 很 有 前 途 的 机 制 ， 因 为 未 来 的 用 户 可 以 从 以 往 用 户 
的 工作 中 受益 。 


18.3.2 评论 和 讨论 作为 标注 


有 时 候 ， 集 成 数据 的 任务 涉及 来 自 不 同 数据 拥有 者 和 用 户 的 贡献 。 为 了 实现 集成 ， 数 
据 很 可 能 要 被 多 个 人 去 理解 和 评估 ， 或 者 某 些 数据 项 需要 沿 着 这 种 方式 被 校正 。 在 这 种 场 
景 下 ， 一 个 必要 的 能 力 就 是 去 标注 数据 (属性 、 元 组 、 树 )， 伴 随 评论 甚至 可 能 是 讨论 帖 。 
这 些 标注 可 以 和 湖 源 信息 (正如 第 14 章 中 描述 的 ) 一 起 帮助 协同 者 完成 任务 。 我 们 简略 
地 讨论 两 个 已 经 提供 该 能 力 的 不 同 场景 。 


Web 端 用 户 信息 共享 


一 个 引入 标注 的 场景 是 支持 最 终 用 户 数据 集成 以 及 在 Web 上 共享 。 这 里 ， 系 统 提 供 一 
个 直观 的 基于 AJAX 的 浏览 器 接口 ， 使 得 用 户 可 以 通过 连接 和 集合 操作 导入 和 合并 多 个 Web 
上 的 电子 表格 或 表 。 在 这 个 接口 中 ， 一 个 用 户 可 以 突出 某 个 特定 的 单元 (cell)、 行 或 列 ， 并 
对 该 项 目 增加 一 个 讨论 帖 。 这 个 标注 将 在 Web 接口 中 突出 显示 并 包括 用 户 及 该 帖子 的 时 间 。 

在 Web 环境 中 ， 讨 论 项 不 会 传播 给 派生 (或 基 ) 数据 ， 取 而 代 之 的 是 标注 会 在 定义 
它们 的 视图 处 本 地 保存 。 原 因 是 该 数据 的 其 他 版 本 可 能 会 用 于 其 他 不 同 的 用 途 ， 因 此 可 能 
不 愿意 见 到 这 些 评论 。 基 本 上 ， 标 注 是 与 视图 和 数据 的 组 合 相关 。 


科学 标注 和 保管 

在 科学 数据 共享 的 场景 下 ， 标 注 通常 是 和 数据 紧密 联系 的 ， 视 图 仅仅 变 成 了 标识 数据 
的 一 种 方式 。 因 此 科学 数据 管理 系统 更 趋向 于 传统 的 数据 库 架 构 且 能 够 以 可 控 的 方式 将 标 
注 传播 给 派生 视图 。 

为 了 帮助 数据 库 管理 员 控制 从 基础 数据 到 派生 数据 的 标注 传播 ， 发 展 出 了 SQL 语言 的 
扩展 ， 称 为 pSQL。 在 某 些 案例 中 ， 多 个 源 关系 的 属性 可 能 会 被 合并 到 同一 个 列 (例如 ， 
在 一 个 等 值 连接 中 ) ， 且 有 多 个 选项 选择 哪个 标注 被 展示 。 

pSQL 有 3 个 传播 模型 ， 可 以 通过 一 个 新 的 PROPAGATE 子 句 来 声明 : default， 只 传播 
查询 中 明确 指明 需要 输出 属性 的 标注 ; default- al， 传 播 所 有 等 价 查询 形式 的 标注 ; cus- 
tom， 用 户 决定 传播 哪些 标注 。 
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例 18.2 如 下 两 个 SQL 查询 : 
SELECT R.a SELECT S.b 
R, 


RLS FROM S 


同 的 标注 。 
在 pSQL 中 : 
e PROPAGATE DEFAULT 子 句 为 左边 的 查询 传播 Ra 的 标注 ， 而 在 右边 将 只 为 查询 
传播 S. b 的 标注 。 
e PROPAGATE DEFAULT - ALL 子 句 将 从 两 个 源 都 复制 标注 。 
e 如 果 SELECT 子 句 改 为 “SELECT X” 且 增加 一 个 诸如 PROPAGATE R. a TO X 的 
custom 类 型 子 句 ， 那 将 只 有 R. a 输出 。 <<< 


虽然 语法 相对 简单 ， 但 是 pSQL 查询 却 必须 以 一 种 将 所 有 可 能 的 标注 聚集 在 一 起 的 方式 重 
写 到 普通 的 SQL 中 。 这 通常 需要 多 个 可 能 的 重 写 集合 (其 中 每 个 都 检索 出 标注 的 一 个 子 集 ) 。 


18.4 动态 数据 : 协同 数据 共享 


科学 、 医 疗 、 学 术 、 政 府 ， 甚 至 是 商业 中 的 进步 越 来 越 得 益 于 大 规模 结构 化 的 共享 数 
据 资源 ， 辟 如 数据 库 和 对 象 信息 库 。 一 些 常 见 的 例子 包括 高 度 管理 的 实验 数据 、 诸 如 普查 
或 调查 数据 的 公共 信息 、 市 场 预测 和 健康 记录 。 面 临 的 一 个 主要 挑战 是 如 何以 一 种 协同 的 
方式 支持 和 促进 这 些 信息 的 共享 。 最 有 效 的 以 数据 为 中 心 的 协同 有 一 系列 的 关键 属性 ， 需 
要 通过 技术 解决 方案 来 提升 协同 : 

1) 该 协同 一 般 要 有 益 于 各 方 ， 不 需要 对 任何 人 施加 额外 工作 或 限制 。 换 句 话说 ， 进 
入 的 门槛 很 低 且 回报 明显 。 

2) 协同 要 包括 不 同 观点 的 派系 ， 这 需要 从 两 个 方面 来 看 ， 包 括 信息 如 何 建 模 或 表示 ， 
以 及 信息 如 何 被 认定 为 正确 的 等 。 

3) 协同 可 能 涉及 贡献 者 之 间 的 权威 性 差异 。 在 某 种 意义 上 ， 这 是 对 搜索 引擎 中 使 用 
的 PageRank 和 其 他 链接 分 析 机 制 中 权威 概念 的 一 种 泛 化 一 一 受到 数据 库 系统 中 查询 结果 
可 能 是 来 自 多 个 连接 或 合并 的 数据 源 的 额外 启发 。 

4) 协同 支持 动态 世界 的 进化 式 理解 ， 因 此 包含 改变 的 数据 。 

在 本 节 ， 我 们 介绍 一 种 由 协同 方式 维护 、 公 共 可 用 的 资源 形成 的 数据 类 型 : 生物 信息 
学 领域 的 科学 数据 。 


WHARA 


在 生物 信息 学 领域 有 太 多 不 同 种 类 的 数据 库 ， 每 个 都 从 不 同 的 角度 关注 该 领域 的 不 同 
方面 ， 例 如 ， 有 机 体 、 基 因 、 和 蛋白 质 和 疾病 。 不 同 数据 库 数 据 之 间 存 在 着 联系 ， 比 如 基因 
和 和 蛋白 质 之 间 的 连接 ， 或 者 种 族 之 间 的 相同 基因 。 多 种 标准 化 结果 导致 了 大 型 数据 仓库 的 
出 现 ， 每 个 数据 仓库 都 作为 某 个 特定 生物 信息 学 子 社区 的 明确 人 口 。 每 个 这 样 的 数据 仓库 
对 其 相应 的 子 社 区 提供 3 个 服务 : 

1) 数据 表示 ， 与 社区 匹配 的 术语 定义 的 模式 和 查询 接口 。 

2) 访问 数据 ， 以 原始 尺度 及 统计 或 启发 式 推导 诊断 和 链接 的 方式 构成 ， 例 如 ， 和 一 
个 疾病 相关 的 基因 。 

3) 清理 和 保管 从 本 地 产生 以 及 从 其 他 地 方 导入 的 数据 。 
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不 同 数据 仓库 之 间 的 数据 对 错 偶 有 争议 。 然 而 某 些 数据 库 会 从 其 他 数据 库 中 导 和 人 数据 
(一 般 通过 用 户 脚 本 ) ， 同 时 每 个 数据 库 都 在 不 断 地 更 新 ， 过 程 中 伴随 着 纠 错 以 及 每 周 、 每 
月 或 按 需 的 新 数据 发 布 。 

注意 ， 此 处 使 用 的 模型 是 以 更 新 为 中 心 的 且 需 要 在 参与 的 不 同 组 织 之 间 支 持 多 模式 和 
多 数据 版 本 。 这 不 同 于 本 书 描写 的 绝 大 部 分 数据 集成 场景 ， 甚 至 超越 了 对 等 数据 管理 系统 
〈 见 第 17 章 ) ， 因 为 需要 管理 更 新 和 数据 冲突 。 由 此 促使 了 协同 数据 共享 系统 ( Collabora- 
tive Data Sharing System , CDSS) 的 发 展 ， 该 系统 在 数据 集成 技术 基础 上 构建 ， 提 供 一 个 
可 供 数据 交换 和 不 同 自治 节点 之 间 更 新 的 原则 上 的 语义 。CDSS 将 站 点 之 间 的 数据 交换 建 
模 成 节点 之 间 的 更 新 传播 ， 服从 于 转换 (通过 模式 映射 )、 内 容 过 滤 (基于 源 权威 的 策 
略 ) 以 及 数据 的 每 个 参与 者 的 本 地 修改 或 替代 。 

CDSS 中 的 每 个 参与 者 或 对 等 节点 控制 着 一 个 本 地 的 数据 库 实 例 ， 以 节点 偏好 的 形式 
包含 所 有 它 想 操 作 的 数据 〈 可 能 会 包含 在 其 他 地 方 产生 的 数据 ) 。 参 与 者 在 一 段 时 间 内 通 
常 以 一 种 “ 非 连接 ”模式 进行 操作 ， 通 过 对 本 地 DBMS 进行 查询 或 做 本 地 修改 。 由 于 修改 
是 针对 数据 库 的 ， 所 以 它们 会 被 记录 。 这 使 得 用 户 做 出 的 修改 不 需要 对 外 部 可 见 。 有 很 多 
场景 中 用 户 最 终 愿意 共享 它们 的 数据 但 是 在 短 时 间 内 希望 能 保持 数据 私有 ， 例 如 ， 基 于 他 
们 的 结果 发 表 论文 或 确保 数据 一 致 和 稳定 。 

一 且 用 户 决定 激活 CDSS 的 更 新 交换 能 力 ， 这 将 把 参与 者 先前 不 可 见 的 更 新 详细 地 发 
布 到 “外 界 ” ， 然 后 将 其 他 人 的 更 新 转换 到 参与 者 的 本 地 模式 一 一 同时 在 将 它们 应 用 到 本 
地 数据 库 之 前 ， 根 据 本 地 管理 员 的 唯一 信任 策略 来 进行 数据 的 过 滤 以 及 冲突 的 协调 。 

模式 映射 ， 类似 于 PDMS (第 17 章 ) ， 指 定 一 个 参与 者 和 其 他 参与 者 的 模式 级 关系 。 
模式 映射 可 能 会 与 信任 策略 一 起 标注 ， 该 标注 指定 过 滤 策 略 ， 用 来 确定 哪些 数据 应 当 被 导 
入 特定 节点 ， 以 及 冲突 协调 的 优先 级 。 信 任 策略 考虑 数据 价值 的 同时 也 考虑 淹 源 。 


例 18.3 图 18-1 展示 了 一 个 简化 的 生物 信息 学 协同 数据 共享 系统 。GUS， 基 因 组 统 
一 模式 ， 包 含 基 因 表 达 、 蛋 白质 和 分 类 (有 机 体 ) 信息 ; BioSQL 包含 非常 相似 的 概念 ; 
uBio 建立 分 类 的 同 义 和 规范 名 。 这 些 数据 库 的 实例 包含 虽然 自治 维护 但 却 对 彼此 感 兴趣 的 
分 类 信息 。 假 设 BioSQL 想 从 CUS FARE, WA m 所 示 ， 反 之 则 不 正确 。 类 似 地 ， 
uBio 想 从 GUS 导入 数据 ， 沿 着 弧 m,。 此 外 ，BioSQL Fil uBio 愿意 共享 它们 的 部 分 数据 ， 例 
如 ，uBio 从 BioSQL 导入 分 类 名 (通过 ms ) BioSQL 使 用 映射 m, 为 它 数据 库 中 所 有 有 机 
体 名 称 添加 同义词 人 口 。 最 后 ， 每 个 参与 者 对 于 他 想 合作 的 数据 都 有 一 定 的 信任 策略 。 例 
如 ，BioSQL 可 能 只 信任 来 自 uBio 的 数据 ， 如 果 它 们 源 自 CUS AM. CDSS 促使 系统 之 间 
的 数据 流动 ， 通 过 使 用 映射 和 不 同 的 独立 参与 方 管理 员 制 定 的 策略 。 


GUS BioSQL 








uBio 


图 18-1 3 个 生物 信息 学 资源 的 协同 数据 共享 系统 案例 。 为 了 简化 问题 ， 我 们 假设 每 个 参与 者 只 有 一 个 
关系 〈GUS，BioSQL，uBio) 。 模 式 映射 通过 标记 的 箭头 表示 <<< 
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18.4.1 基本 架构 


我 们 从 一 个 CDSS 架构 的 概览 开始 。CDSS 主要 是 构建 在 协同 者 现 有 的 DBMS 架构 之 
上 ,而 不 是 取代 它 。CDSS 的 运行 时 位 于 每 个 参与 者 机 器 (对 等 节点 ) P 之 上 的 现 有 
DBMS 中 ， 它 负责 管理 数据 交换 和 更 新 的 永久 存储 。 它 执行 一 种 无 中 心服 务 器 的 完全 对 等 
架构 。 一 般 而 言 ， 每 个 节点 代表 一 个 有 着 唯一 模式 和 相关 的 本 地 数据 实例 (通过 DBMS 管 
H) 的 自治 域 。 位 于 P 的 用 户 通常 以 一 种 “ 非 连接 ”的 方式 查询 和 更 新 本 地 实例 。 根 据 了 
的 管理 员 的 意愿 周期 性 地 激活 CDSS。 这 会 使 得 P 发 布 其 本 地 编辑 日 志 ， 使 其 变 得 全 局 可 
用 。 这 也 促使 P 获 取 其 他 节点 发 布 的 更 新 ， 并 进行 相应 的 转换 和 应 用 〈 从 最 后 一 次 了 上 激活 
CDSS 开始 算 起 ) 。 更 新 交换 之 后 ， 最 初 的 参与 者 将 产生 一 个 数据 实例 ， 通 过 模式 映射 使 得 
最 可 信任 的 更 新 变 得 可 达 。 任 何在 了 节点 本 地 做 出 的 更 新 都 能 修改 从 其 他 节点 导入 (通过 
应 用 更 新 ) 的 数据 。 


Se Mi AUPE AER H I 

同 CDSS 中 其 他 节点 共享 更 新 的 第 一 个 阶段 就 是 在 一 个 永久 的 、 存 档 的 、 总 是 可 用 的 
存储 器 发 布 更 新 的 数据 。 所 有 数据 的 完整 历史 版 本 都 将 在 这 个 存储 器 中 保存 ， 这 样 不 同 版 
本 可 以 比较 ， 更 新 可 以 跟踪 甚至 回 滚 。 原 则 上 ， 存 储 系统 可 以 是 任意 类 型 的 高 可 用 服务 架 
构 或 者 诸如 亚马逊 Simple DB 之 类 的 云 存 储 。 某 些 实现 甚至 使 用 了 可 靠 的 对 等 存储 架构 ， 
这 样 数据 在 参与 者 自己 的 服务 器 上 进行 分 区 和 复制 。 这 需要 非常 复杂 的 工程 ， 更 多 细节 我 
们 推荐 有 兴趣 的 读者 阅读 参考 文献 注释 。 


FAIL UE LT 

CDSS 模型 中 涉及 的 最 复杂 部 分 是 更 新 如 何 被 处 理 、 过 滤 、 保 持 一 致 和 应 用 于 特定 
参与 者 的 数据 库 实例 。 图 18-2 从 一 个 指定 节点 的 角度 展示 了 一 个 基本 的 数据 处 理 “ 流 
水 线 ”"。 节 点 首先 从 上 面 提 到 的 更 新 日 志 存 储 系统 中 获取 其 他 节点 已 经 发 布 却 尚 未 被 该 
节点 知晓 的 更 新 。 接 着 更 新 交换 (18.4.2 节 ) 产生 作用 ,包含 两 个 方面 : 通过 模式 映 
射 来 转换 和 映射 更 新 ， 同 时 记录 了 映射 步骤 作为 数据 溯源 (第 14 章 ) ， 然 后 基于 本 地 信任 
策略 根据 它们 的 溯源 来 过 滤 信 任 和 不 信任 更 新 。 现 在 所 有 本 地 用 户 做 出 的 修改 又 都 被 考 
虑 以 便 组 成 一 系列 候选 更 新 。 这 些 可 能 存在 数据 依赖 的 候选 更 新 可 能 会 被 组 织 成 事务 。 


获取 已 发 布 
的 更 新 





图 18-2 更 新 导 人 节点 的 CDSS 阶段 
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协调 过 程 (18. 4.3 节 ) 在 可 能 的 更 新 之 间 进 行 裁 断 并 决定 对 对 等 数据 库 实 例 进行 一 致 
性 的 应 用 。 


18.4.2 映射 更 新 与 物化 实例 


不 同 参 与 者 发 布 的 更 新 通常 具有 不 同 的 模式 和 标示 符 。 有 些 更 新 可 能 与 其 他 节点 的 更 
新 相 冲 突 ， 这 可 能 是 因为 并 发 的 更 新 或 者 对 事实 的 分 歧 。 此 外 ， 每 个 参与 者 对 于 其 他 参与 
者 的 权威 有 自己 的 评估 ， 这 也 可 能 随 着 节点 的 变化 而 变化 。 更 新 交换 操作 涉及 通过 模式 映 
射 (同时 也 有 标示 符 ) 来 转换 更 新 ， 跟 踪 那 些 更 新 的 溯源 并 基于 信任 策略 来 过 滤 。 此 外 节 
点 用 户 可 能 通过 本 地 保管 (更新) 来 覆盖 经 过 更 新 交换 导入 的 数据 。 最 后 ， 导 入 的 集合 和 
本 地 可 能 并 不 兼容 ， 因 此 ， 更 新 交换 后 面 紧 跟 着 协调 (18.4.3 节 ) 过 程 。 


ESTE 

WE, CDSS 中 的 转换 更 新 过 程 是 对 数据 交换 (10.2 节 ) 的 一 种 泛 化 。 如 果 我 们 将 
每 个 节点 本 地 插入 的 数据 作为 系统 中 的 源 数据 ， 那 么 〈 不 考虑 删除 或 信任 的 情况 ) 每 个 节 
点 应 当 得 到 一 个 物化 数据 实例 ， 该 实例 能 够 提供 CDSS 中 数据 所 需 的 确定 结果 和 模式 映射 
所 隐 含 的 限制 。 这 也 同样 是 PDMS 支持 的 查询 应 答 语义 。 为 了 达到 这 个 目的 ， 我 们 必须 使 
用 类 似 10. 2 节 中 描述 的 chase 过 程 来 计算 一 个 符合 规定 的 通用 解 。 

当然 ， 引 入 删除 、 淹 源 计 算 和 信任 的 情况 后 会 有 很 多 额外 的 细微 差别 。 此 处 我 们 提供 
一 个 更 新 交换 过 程 的 概览 ， 在 参考 文献 注释 中 提供 更 多 的 细节 。 

正如 3.2.5 节 介 绍 的 ，CDSS 使 用 一 系列 的 模式 映射 来 确定 诸如 元 组 生成 依赖 
关系 (tgd) 等 。 


例 18.4 针对 图 18-1， 节 点 GUS、BioSQL 和 uBio 有 一 元 关系 模式 来 描述 分 类 ID 、 名 
称 和 规范 名 : GUS (id, can, nam), BioSQL (id, nam) 和 uBio (nam，can)。 以 下 是 节 
点 之 间 的 映射 : 


mı GUS(i,c,n) > BioSQL(i, n) 
m2 GUS(i,c,n) > uBio(n,c) 
m3 BioSQL(i,n) 一 3c uBio(n, c) 
ma BioSQL(i,c) A uBio(n,c) > BioSQL(i, n) 
注意 m 至 少 有 一 个 变量 : c 的 值 是 未 知 的 (也 并 不 要 求 是 唯一 的 )。 前 3 个 映射 都 只 有 单 
个 的 源 和 目标 节点 ， 分 别 对 应 于 映射 的 左边 和 右边 。 一 般 而 言 ， 从 多 个 节点 产生 的 关系 可 能 会 
在 任意 边 出 现 ， 如 映射 ms ， 它 定义 的 数据 是 基于 BioSQL 自身 数据 和 uBio 的 元 组 。 <<< 


数据 交换 程序 


我 们 先 来 关注 CDSS 模型 是 如 何 将 数据 交换 模式 扩展 到 计算 实例 的 。 数 据 交换 通常 利 
用 称 为 chase 的 过 程 和 模式 映射 一 起 来 计算 规范 通用 解 。 重 要 的 是 该 解 不 是 一 个 标准 的 数 
据 实 例 ， 而 是 一 个 v 表 (v-table) ， 这 是 对 可 能 的 数据 库 实例 集合 的 一 种 表示 。 例 如 ， 在 
上 例 中 的 ms ， 变 量 可 能 有 各 种 不 同 的 值 ， 每 个 值 都 会 导致 不 同 的 实例 。 

为 了 使 利用 标准 的 DBMS 技术 来 计算 一 个 规范 通用 解 的 过 程 可 行 ， 而 不 是 通过 一 个 定 
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制 的 chase 过 程 来 实现 ， 一 个 关系 化 的 CDSS 模型 在 扩展 后 的 datalog 中 将 模式 映射 转换 成 
一 个 程序 ， 该 程序 支持 Skolem 函数 ， 以 此 来 取代 现 有 的 类 似 * 的 变量 。 由 此 得 到 的 (可 
能 有 递归 ) 程序 也 能 计算 规范 通用 解 ， 由 此 带 来 的 好 处 是 它 是 一 个 查询 而 不 是 一 个 过 程 。 
该 程序 非常 类 似 于 疼 规 则 查询 应 答 模 式 (2. 4.5 节 )， 区 别 在 于 我 们 在 不 同 变量 中 不 去 除 
包含 Skolem 值 的 结果 。 取 而 代 之 的 是 我 们 必须 真正 地 物化 Skolem 值 。 


例 18.5 我 们 运行 的 更 新 交换 datalog 示例 程序 包含 如 下 规则 (注意 源 和 目标 的 顺序 
是 颠倒 的 ) : 


BioSQL(i, n) :- GUS(i,c, n) 

uBio(n, c) :- GUS(i,c,n) 

uBio(n, f (i, n)) :- BioSQL(i, n) 
BioSQL(i, n) :- BioSQL(i, c), uBio(n, c) 


这 个 程序 是 递归 的 (特别 是 对 BioSQL) 且 必 须 完整 地 运行 一 遍 计算 规范 通用 解 。 <<< 


XML 


到 本 书写 作为 止 ， 还 没有 一 个 CDSS 的 XML 实现 。 然 而 ， 考 虑 到 数据 交换 、 查 询 重 写 
和 增 量 视图 维护 技术 都 已 经 能 够 使 用 11.5 节 中 的 映射 形式 化 很 轻松 地 扩展 到 XML 模型 ， 
因此 实现 起 来 会 比较 容易 。 


从 数据 到 更 新 交换 的 泛 化 


更 新 交换 需要 每 个 节点 不 仅仅 只 有 提供 与 源 数据 关系 的 简单 能 力 ， 而 实际 上 需要 从 其 
他 地 方 导入 数据 的 一 系列 本 地 更 新 : 插入 新 数据 和 导入 数据 的 删除 。CDSS 将 本 地 更 新 建 
模 成 关系 。 它 获取 每 个 节点 发 布 的 更 新 日 志 并 对 其 “最 小 化 ”"， 移 除 已 经 删除 彼此 的 插 
入 -删除 对 。 然 后 它 将 每 个 关系 R 的 本 地 更 新 分 成 2 个 逻辑 表 : 一 个 本 地 贡献 表 尺 ， 它 包 
括 所 有 的 插 和 人 数据 ;一 个 本 地 拒绝 表 尺 ， 它 包括 外 部 数据 的 所 有 删除 。 然 后 它 通过 增加 尼 
到 尽 的 映射 以 及 为 每 个 映射 增加 ” R" 状态 来 更 新 datalog 规则 。 例 如 ， 我 们 例子 中 的 第 一 
个 映射 可 以 用 下 面 的 规则 来 取代 。 

BioSQL(i, n) :- BioSQL!(i, n) 

BioSQL(i, n) :- GUS(i,c, n), -BioSQL’ (i, n) 


增 量 式 更 新 传播 


最 后 ，CDSS 使 用 增 量 视图 维护 技术 来 更 有 效 地 更 新 每 个 节点 的 物化 实例 。 考 虑 到 每 
个 节点 做 出 的 更 新 集 是 用 delta 关系 来 描述 〈 插 人 和 删除 的 元 组 集 ) ， 加 上 已 存在 关系 的 内 
容 ， 系 统 可 以 使 用 映射 得 到 delta 集合 并 应 用 “向 下 的 ”关系 。 此 外 ， 在 一 个 视图 更 新 间 
题 的 变种 中 ， 很 多 场景 可 能 会 沿 着 映射 “向 上 ”传播 更 新 ， 改 变 派生 的 修改 过 的 元 组 的 源 
元 组 。 

在 增 量 式 更 新 传播 中 ，CDSS 一 般 会 根据 信任 或 权威 度 来 过 滤 正 在 传播 的 更 新 ， 这 在 
某 种 程度 上 取决 于 数据 溯源 。 数 据 淹 源 在 删除 传播 算法 中 也 显得 更 有 效 。 特 别 地 ， 淹 源 可 
以 被 用 做 决定 视图 元 组 在 某 些 基 元 组 被 移 除 后 是 否 还 具有 可 派生 性 。 通 过 决定 一 个 对 基 元 
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组 的 修改 是 否 会 引发 副作用 ， 淹 源 也 能 被 用 来 更 灵活 地 解决 视图 更 新 问题 。 


循环 映射 


为 了 保证 数据 交换 过 程 的 终止 ， 标 准 的 CDSS 计算 需要 映射 集 是 弱 无 环 的 ( 见 10.2 节 )。 
直观 上 ， 这 是 因为 非 弱 无 环 的 映射 在 每 个 迭代 中 可 能 继续 引入 新 的 标记 过 的 空 值 ， 永 不 停 
止 。 最 近 关 于 CDSS 的 工作 已 经 引入 一 个 用 户 干预 阶段 ， 系 统 让 用 户 决定 新 标记 的 空 值 和 
前 面值 是 否 统一 ， 也 就 是 说 是 否 分 配 了 同样 的 值 。 这 使 得 在 引入 额外 的 用 户 输入 和 轻微 的 
语义 改变 情况 下 ， 即 使 有 循环 也 能 计算 。 


RE 

在 数据 源 数据 具有 不 同 质量 或 代表 不 同 观 点 的 任何 种 类 数据 集成 情景 中 ， 一 个 主要 的 
挑战 是 决定 一 个 元 组 在 一 个 查询 应 答 或 物化 数据 实例 中 为 什么 和 如 何 存 在 。 集 成 视图 对 我 
们 隐藏 了 细节 。 这 就 是 CDSS 中 数据 漳 源 能 够 起 重要 作用 的 地 方 。 

CDSS 创建 、 物 化 和 增 量 维护 一 个 第 14 章 中 溯源 半 环 形式 的 表示 。 特 别 地 ， 它 采用 超 
图 表示 且 在 硬盘 上 编码 〈 目 前 的 实现 使 用 关系 表 ， 尽 管 其 他 表示 也 能 等 价 的 使 用 ) 。 


例 18.6 考虑 我 们 运行 例子 中 的 映射 。 节 点 实例 中 的 数据 溯源 可 以 通过 图 18-3 所 示 
的 超 图 表示 来 获取 。 注 意 “ 源 ”元 组 (本 地 节点 R 关系 上 的 插入 ) 用 3 -D 节 点 和 “+” 
来 突出 。 空 标记 用 上 来 标识 。 





图 18-3 ”对 应 于 CDSS 示例 的 溯源 图 


从 该 图 中 我 们 可 以 通过 反 向 跟踪 路 径 到 源 节点 来 分 析 B(3，2) 的 溯源 一 一 在 本 例子 
中 通过 ms 到 p, Ap, AM m, 到 p, <<< 


将 渊源 信息 作为 关系 进行 编码 的 好 处 是 它 可 以 和 数据 库 实例 一 起 来 增 量 维护 。 本 质 
上 ,我 们 可 以 将 每 个 CDSS 模式 映射 M 分 成 部 分 映射 :一 个 负责 M 的 左边 并 从 中 计算 出 漳 
源 关 系 ( 从 左边 物化 所 有 的 变量 ) ， 另 一 个 负责 湖 源 关系 和 投影 必要 的 变量 以 便 取得 人 的 
右边 。 


tea FEE ME FU 

模式 映射 描述 了 不 同 实例 中 数据 元 素 之 间 的 关系 。 然 而 ， 映 射 是 组 合式 的 ， 并 不 是 每 
个 节点 都 想 导 人 逻辑 上 会 被 映射 到 它 的 数据 。 一 个 节点 可 能 不 信任 某 些 源 或 者 更 偏好 某 些 
源 ， 例 如 因为 某 个 源 更 加 权威 。 每 个 节点 的 信任 策略 对 数据 和 更 新 及 更 新 偏好 进行 编码 。 
优先 级 0 意味 着 更 新 不 被 信任 。 
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例 18.7 作为 例子 ,与 BioSQL (给 予 优先 级 1) 相 比 ，uBio 可 能 更 信任 来 自 GUS 
(给 予 优先 级 2) 的 数据 。BioSQL 可 能 不 信任 来 自 映射 中 ms 以 “a” 开 头 〈 信 任 优先 级 0) 
的 任何 数据 。 <<< 


信任 策略 能 在 更 新 交换 时 直接 强制 进行 : 当 一 个 更 新 通过 映射 传播 时 ， 它 被 给 予 一 个 
对 所 有 节点 都 适用 的 信任 偏好 等 级 。 该 偏好 等 级 从 映射 、 映 射 自身 的 信任 级 别 以 及 映射 目 
标的 信任 级 3 个 方面 来 考量 节点 对 源 元 组 的 信任 。 这 3 个 方面 通过 表 14-1 中 遵从 溯源 半 环 
的 操作 符 结合 在 一 起 一 一 通常 是 布尔 信任 模型 或 者 权重 /代价 模型 。 

在 这 个 阶段 ， 每 个 节点 上 的 每 个 实例 中 的 每 个 元 组 将 给 予 一 个 概念 上 的 优先 级 分 配 。 
一 个 挑战 在 于 当 一 个 元 组 和 另 一 个 元 组 冲突 ,尤其 当 它 们 被 组 织 成 事务 时 ， 我 们 必须 选择 
哪个 元 组 被 接受 ， 哪 个 元 组 被 拒绝 ， 并 将 同一 事务 的 所 有 元 组 作为 一 个 原子 单元 对 待 。 


18. 4.3 冲突 协调 


CDSS 协调 过 程 保 证 每 个 节点 都 能 收 到 一 致 的 〈 尽 管 可 能 是 唯一 的 ) 数据 实例 。 它 不 
只 考虑 冲突 还 考虑 事务 。CDSS 实际 并 不 是 为 在 线 事务 处 理应 用 而 设计 的 。 然 而 ， 事 务 可 
能 会 在 一 个 原子 更 新 被 映射 到 一 个 关系 表达 时 出 现 。 例 如 ， 一 个 特定 应 用 的 用 户 可 能 会 更 
新 一 棵 XML 树 ， 该 树 被 映射 到 一 系列 关系 更 新 ， 这 些 更 新 要 么 全 做 ， 要 么 全 不 做 。 

CDSS 从 构成 要 素 更 新 的 角度 来 定义 一 个 事务 的 信任 优先 级 。 许 多 不 同 的 策略 都 是 可 
用 的 。 例 如 ， 我 们 可 能 考虑 将 一 个 事务 的 优先 级 定义 为 其 构成 要 素 更 新 的 最 小 或 最 大 优先 
级 。 现 阶段 当 其 任意 一 个 成 员 的 更 新 不 被 信任 时 ， 该 事务 就 不 被 信任 〈 一 个 不 信任 的 更 新 
“污染 ”整个 事务 ) 。 否 则 ， 对 于 任何 包含 的 更 新 都 将 得 到 最 高 的 信任 优先 级 〈 我 们 想 保 
证 最 被 信任 的 数据 被 应 用 ) 。 


FF HEE 

事务 带 来 了 简单 的 删除 — 插入 更 新 模型 中 没有 的 多 个 挑战 : 1) 数据 依赖 (一 个 事务 
可 能 依赖 于 另 一 个 事务 的 输出 ); 2) 原子 性 〈 要 么 都 更 新 ， 要 么 都 不 更 新 ); 3) 串 行 化 
〈 某 些 事务 可 以 并 发 执行 ， 其 他 的 不 可 以 ) 。 

一 个 常用 的 方法 是 为 每 个 事务 分 配 优先 级 ; 然后 ， 按 优先 级 降序 排列 ， 找 到 根据 优先 
级 可 以 被 应 用 的 最 新 事务 (为 了 满足 读 -SRB - 读 依赖 关系 ， 需 要 和 该 事物 的 先 序 事务 
一 起 应 用 ) 。 该 过 程 是 关于 优先 级 和 更 新 数量 ， 以 及 事物 链 长 度 的 多 项 式 级 时 间 。 


参考 文献 注释 


支持 协同 的 问题 已 在 数据 库 领 域 得 到 广泛 的 研究 。 社 区 门户 的 发 展 是 其 中 的 一 个 主要 
动机 ，Cimple 系统 [170，184，185] (和 其 相应 的 DBLife 门户 ) 开发 了 各 种 允许 用 户 参与 
和 修 护 的 技术 [113，169]。 这 也 是 “ 原 位 ” 式 即 付 即 用 数据 集成 或 数据 空间 [233] 考 虑 的 
一 个 问题 。 本 章 讨 论 的 iTrails 系统 [504 ] 是 构建 数据 空间 的 一 次 尝试 。 多 个 用 户 希 望 执行 
协作 事务 (例如 ,订购 同一 航班 或 者 到 达 同 一 目的 ) 的 所 谓 数 据 协作 的 概念 已 经 被 Youto- 
pia 系统 [278，279 ] 所 验证 。 

许多 协同 系统 中 一 个 非常 普遍 的 做 法 是 使 用 标注 和 溯源 。 谷 歌 的 Fusion Tables[ 260, 
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261 ] 是 一 个 最 终 用 户 网 络 标注 系统 的 实现 ， 它 使 用 这 两 种 机 制 。DBNotes[ 136 ] 是 第 一 个 关 
注 标注 传播 的 科研 数据 管理 系统 ，Orchestra[ 268, 342, 544] 是 一 个 协同 数据 共享 系统 ， 
它 也 使 用 标注 和 溯源 。Fusion Tables 主要 关注 用 户 面 对 的 问题 ， 而 DBNotes 关注 标注 是 如 
何 与 查询 语言 交互 的 ，Orchestra 关注 溯源 以 及 它 和 更 新 传播 的 交互 。 文 献 [209 | 研究 了 与 
标注 相关 的 存储 模式 。 

溯源 很 自然 地 引入 在 协同 场景 下 两 个 相关 概念 的 研究 工作 一 一 信任 和 因果 关系 。 给 定 
一 些 输入 数据 、 结 果 或 者 它们 组 合 的 信任 等 级 ,我 们 希望 为 一 个 数据 值 或 数据 集 的 可 信和 度 
分 配 一 个 分 值 。 一 个 常用 的 方法 是 使 用 概率 模型 来 构造 信任 ， 正 如 第 13 章 所 讨论 的 ; 或 
者 利用 机 器 学 习 技 术 来 确定 不 同 贡献 因素 的 信任 水 平 ， 正 如 第 16 章 所 讨论 的 。 在 很 多 情 
况 下 ， 淹 源 帮 助 我 们 分 辨 不 同 的 源 ， 并 确定 这 些 源 是 否 与 我 们 的 置信 相 兼 容 。 置 信 的 概念 
在 BeliefDB 项 目 [246 ] 中 有 着 更 深入 的 研究 ， 该 项 目 考虑 了 高 等 级 置信 (XAS Y 相信 的 
某 些 东西 ) 。 因 果 关 系 指 的 是 为 给 定 的 输出 结果 找到 最 可 能 的 输入 ， 例 如 一 个 错误 的 值 。 
最 近 的 研究 验证 了 如 何 选择 视图 中 的 多 个 元 组 和 如 何 为 确定 最 有 可 能 产生 这 些 结果 的 输入 
元 组 [425] 。 

最 后 ， 值 得 注意 的 是 标注 和 更 新 传播 的 构建 很 大 程度 上 依赖 于 视图 维护 的 概念 ， 包 括 
Gupta, Mumick 和 Subrahmanian [ 275 ] 提出 的 迭代 视图 的 维护 技术 ，Dayal 和 Bernstein 
[166], Keller[ 345], Bancilhon 和 Spyratos[ 53 ] 等 人 提出 的 视图 更 新 问题 。 
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数据 集成 的 未 来 


“预测 是 非常 困难 的 ， 尤 其 是 关乎 未 来 。” 
—Niels Bohr 


与 整个 数据 管理 领域 一 样 ， 随 着 技术 的 进步 和 新 应 用 的 涌现 ， 数 据 集成 也 在 不 断 地 演 
变 。 数 据 集成 起 初 主要 关注 企业 内 部 的 变化 。 随 着 Web 的 出 现 ， 数 据 集成 遇 到 了 新 的 问 
题 ， 例 如 数据 源 的 数量 多 得 惊人 、 数 据 源 的 结构 少 得 可 怜 。 随 着 数据 产生 速度 日 益 加 快 和 
新 的 数据 形式 不 断 涌现 ， 我 们 看 到 数据 集成 仍 在 不 断 地 演进 。 大 型 科学 实验 依赖 于 数据 管 
理 技术 的 进步 。 人 们 与 Web 服务 的 交互 会 产生 数据 片段 〈 常 称 为 面包 碎 屑 ) 。 传 感 器 从 更 
多 的 数据 源 〈 如 GPS、 行 车 记录 、 生 命 体征 ) 以 更 高 的 精度 来 收集 数据 。 由 于 大 量 的 组 织 
和 个 人 不 断 产 生 数据 源 ， 所 以 最 终 为 数据 集成 带 来 新 的 挑战 。 

正如 我 们 在 本 书 中 看 到 的 ， 数 据 集成 将 成 为 数据 管理 子 领域 的 驱动 者 之 一 ， 同 时 也 是 
该 领域 技术 进步 的 受益 者 。 例 如 ，XML、 不 确定 数据 库 、 数 据 溯源 、 数 据 库 关键 词 搜索 以 
及 Web 数据 管理 等 领域 均 取 得 了 长 足 的 进步 ， 这 些 领 域 取得 发 展 有 各 自 的 原因 ， 但 在 某 
种 程度 上 都 对 数据 集成 的 发 展 起 到 促进 作用 。 

下 面 我 们 将 谈 及 数据 集成 的 几 个 发 展 趋势 和 值得 关注 的 一 些 领域 。 


19.1 不 确定 性 、 济 源 和 清理 


从 某 种 意义 上 来 说 ， 数 据 集成 实际 上 是 将 一 系列 的 异 构 数据 源 进 行 转换 、 合 并 ， 最 后 
生成 一 个 统一 的 结果 ， 其 上 可 以 加 加 减 减 。 有 时 知道 数据 从 何 而 来 和 如 何 产生 是 非常 重要 
的 。 可 能 某 个 特定 的 信息 抽取 器 是 有 问题 的 ， 也 可 能 某 个 数据 源 特别 具有 权威 性 。 

正如 第 14 章 讨论 的 ， 数 据 溯源 把 源 数据 项 和 结果 相关 联 ， 同 时 记录 用 到 的 转换 。 给 
定 某 些 源 (或 结果 ) 的 质量 信息 ， 结 合 溯源 ， 我 们 可 以 推出 其 他 数据 的 不 确定 性 。 

在 第 13 章 中 ， 讨 论 了 在 给 定 输入 得 分 的 情况 下 如 何 计算 概率 答案 。 第 16 章 中 的 一 些 
早期 工作 研究 了 基于 用 户 反 馈 的 查询 结果 的 质量 。 

更 一 般 地 ， 我 们 希望 对 一 系列 的 数据 进行 清洗 和 更 新 操作 ， 例 如 去 重 、 数 值 修正 等 。 
再 结合 溯源 来 修正 源 数 据 质 量 的 级 别 (甚至 可 能 创建 通用 的 修正 脚本 )。 通 常情 况 下 ， 得 
到 越 来 越 多 关注 的 是 如 何 获 取 使 用 模式 、 反 馈 信息 ， 以 及 数据 质量 的 线索 并 利用 它们 来 评 
估 不 确定 性 和 自动 清洗 。 第 二 个 关键 问题 是 如 何 形式 化 ， 类 似 于 我 们 使 用 的 数据 模型 和 查 
询 原 语 ， 这 样 可 以 更 好 地 获得 不 确定 性 传播 操作 的 语义 。 


19.2 REM “AHA” 


受 Amazon Mechanical Turk 和 维基 百科 之 类 的 Web 2.0 网 站 成 功 的 启发 ， 许 多 研究 者 开始 
研究 将 众 包 作为 基本 的 数据 库 操作 。 主 要 的 观察 是 : 某 些 条 件 下 计算 机 很 难 做 到 (如 一 个 图 片 
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是 否 包含 日 落 ， 或 者 从 网 页 抽取 的 数据 是 否 正 确 ) 的 事情 ， 人 却 可 以 轻而易举 地 完成 。 因 此 ， 
如 果 把 人 的 计算 有 效 结合 到 查询 处 理 中 〈 即 使 这 需要 花费 更 长 时 间 ) ， 那 么 就 可 以 支持 新 类 型 
的 查询 和 数据 管理 服务 ， 例 如 ， 找 到 满足 一 系列 特定 条 件 的 图 片 、 从 网 页 中 获得 干净 的 数据 库 。 

第 二 种 众 包 需 要 参与 者 更 加 积极 。 例 如 ， 设 想 构建 一 个 包含 全 世界 瓶装 水 价格 的 数据 
E, 或 者 找到 坦桑尼亚 哪些 村 里 有 干净 的 水 。 传 统 情况 下 ， 构 建 这 样 的 数据 库 可 能 需要 很 
多 年 ， 在 建成 之 前 这 样 的 数据 库 可 能 过 时 了 。 在 移动 设备 推动 下 采用 合适 的 众 包 技术 ， 这 
样 的 数据 库 可 以 在 几 小 时 内 建成 ， 这 些 都 会 对 人 们 的 生活 产生 革命 性 的 影响 。 

众 包 在 解决 传统 困难 的 数据 集成 问题 方面 具有 很 大 的 潜质 。 例 如 ， 可 由 人 去 验证 Web 
抽取 的 质量 ， 由 人 匹配 模式 和 数据 。 这 方面 还 处 于 初始 阶段 ， 但 是 毫 无 疑问 它 将 成 为 未 来 
研究 的 焦点 。 


19. 3 构建 大 规模 结构 化 Web 数据 库 


在 很 多 领域 中 ， 需 要 集成 多 种 不 同 来 源 的 数据 以 构建 大 规模 结构 化 的 Web 数据 库 。 
例如 ，Google Scholar (谷歌 学 术 ) 集成 了 许多 文献 数据 源 ， 为 成 千 上 万 的 出 版 物 建立 一 个 
引文 数据 库 。 男 一 个 例子 ， 生 物 学 家 往往 想 要 集成 PubMed 、Grants 和 ClinicalTrials 之 类 的 
数据 源 来 建立 生物 医学 数据 库 。 再 比如 ,为 了 查找 和 推销 ， 电 子 商务 公司 经 常 要 集成 零售 
商 提供 的 产品 信息 以 便 建立 巨大 的 产品 分 类 。 

建立 和 维护 这 样 的 数据 库 带 来 很 多 挑战 。 本 书 中 讨论 了 很 多 有 关 的 技术 ， 例 如 包装 器 构建 
和 模式 匹配 。 随 着 越 来 越 多 的 数据 库 构建 起 来 ， 还 有 很 多 新 的 挑战 需要 我 们 去 探索 。 例 如 ,我 
们 需要 研究 一 套 方法 去 构建 这 类 数据 库 。 如 果 我 们 想 要 集成 PubMed, Grants 和 ClinicalTrials， 
该 怎么 进行 ? 我 们 首先 清洗 每 个 数据 源 (例如 通过 数据 匹配 ) ， 然 后 合并 ， 还 是 反 过 来 ? 有 很 
多 构建 关系 数据 库 的 方法 论 ， 但 是 没有 适用 于 通过 集成 构建 大 规模 数据 库 的 方法 论 。 

另 一 个 例子 ， 当 在 Web 上 部 署 这 样 的 数据 库 时 ， 我 们 往往 要 为 每 个 集成 的 实体 构建 
一 个 “主页 " 。 但 是 随 着 更 多 信息 的 获得 ， 我 们 经 常 需要 把 这 些 实体 分 解 或 者 合并 。 如 何 
管理 这 些 实体 的 标识 (ID) 呢 ? 如 何 提供 导航 页 面 以 便 用 户 可 以 轻而易举 地 找到 所 要 的 实 
体 ， 即 便 我 们 对 实体 位 置 进行 了 移动 ? 维基 百科 已 经 给 出 了 一 个 基本 的 解决 方案 。 但 是 这 
个 方案 是 否 可 以 用 到 其 他 环境 中 呢 ? 还 有 更 好 的 解决 办 法 吗 ? 其 他 的 挑战 还 包括 增 量 式 更 
新 数据 库 和 在 更 新 过 程 中 回收 用 户 的 反馈 。 目 前 在 构建 门户 网 站 的 研究 中 已 经 开始 发 现 和 
解决 这 些 挑战 〈 详 见 第 15 章 ) ， 但 是 还 需要 更 多 的 研究 工作 。 


19.4 BERRE 


另 一 种 极端 情况 ， 许 多 数据 集成 任务 是 暂时 性 的 。 我 们 经 常 遇 到 这 样 的 情况 : 有 些 问 
题 需 要 集成 许多 数据 源 才 能 回答 ， 但 是 这 类 问题 仅仅 只 会 被 问 到 1 ~ 2 次 。 然 而 ， 这 却 需 
要 集成 能 很 快 地 由 非 专业 人 士 完 成 。 例 如 ， 在 一 个 灾难 应 急 情 况 下 ， 受 灾 报 告 来 自 四 面 八 
方 的 数据 源 ， 因 此 需要 证 实 这 些 报告 的 真实 性 且 迅 速 地 分 享 给 灾民 。 

一 般 情况 下 ， 很 多 集成 任务 非常 简单 但 是 用 现 有 的 工具 和 技术 执行 起 来 却 异 常 的 困 
难 。 除 了 为 专业 人 士 构建 数据 集成 系统 的 困难 以 外 ， 轻 量 级 的 集成 也 带 来 其 他 一 些 挑战 ， 
包括 : 确定 相关 数据 源 、 评 佑 数据 源 的 质量 、 帮 助 用 户 很 好 地 理解 语义 以 便 数据 源 能 够 以 
一 种 有 意义 的 方式 集成 ， 以 及 支持 集成 的 过 程 。 
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在 这 方便 取得 进展 的 一 个 关键 在 于 关注 用 户 面临 的 任务 ， 确 保 每 一 个 步 又 都 很 容易 地 
被 支持 。 此 外 ， 正 如 15. 5 节 中 所 述 ， 我 们 应 该 支持 即 付 即 用 的 数据 集成 : 即 应 该 在 协调 、 
清洗 和 集成 数据 方面 提供 一 个 简便 、 快 捷 的 集成 方法 。 理 想 情 况 下 ， 可 以 利用 机 器 学 习 和 
其 他 技术 增强 用 户 输入 的 效果 ， 也 许可 以 利用 半 监 督学 习 方 法 ， 也 就 是 说 ， 小 部 分 人 工分 
类 的 数据 加 上 大 量 的 原始 (未 标注 的 ) 数据 来 训练 系统 。 


19.5 集成 数据 可 视 化 


用 户 最 终 想 看 到 的 不 是 一 行 行 数据 而 是 突出 了 数据 中 重要 模式 并 能 够 进行 灵活 探索 的 
可 视 化 效果 。 例 如 ， 一 个 示意 图 或 一 个 时 间 轴 可 以 很 快 地 反映 热点 区 或 需要 详细 研究 的 时 
间 点 。 可 视 化 是 整个 数据 管理 领域 的 一 个 挑战 ， 在 数据 集成 中 尤其 重要 。 例 如 ， 当 数据 来 
自 多 个 数据 源 时 ， 我 们 希望 立刻 看 到 这 些 数 据 源 之 间 的 差异 。 另 外 ， 可 视 化 还 可 以 通过 指 
出 哪些 数据 子 集 未 被 正确 地 协调 来 辅助 数据 集成 。 当 人 们 开始 搜索 大 规模 的 异 构 数据 时 ， 
可 视 化 将 成 为 展示 搜索 结果 差异 性 和 数据 与 当前 任务 相关 性 的 关键 。 最 后 ， 可 视 化 还 在 传 
输 集 成 数据 及 其 溯源 的 确定 性 中 起 到 重要 作用 。 


19.6 社交 媒体 集成 


社交 媒体 包括 Facebook 的 更 新 、 推 特 、 用 户 生 成 视频 以 及 博客 。 这 些 数 据 是 爆发 式 
的 ， 对 它们 进行 集成 也 非常 有 意思 。 一 种 集成 场景 是 发 现 推 特 圈 (Twittersphere) 中 有 趣 
的 事件 。 例 如 ， 最 近 的 一 次 地 震 、 出 现 的 新 发 布 产品 的 负面 报道 、 公 共 场 所 中 有 计划 的 抗 
议 。 另 一 种 集成 场景 是 发 现 与 某 个 特定 事件 相关 的 所 有 社交 媒体 数据 (如 推 特 和 视频 ) 。 
还 有 一 种 集成 场景 是 总 结 博客 圈 中 的 主要 趋势 并 对 其 可 视 化 。 

很 显然 ， 集 成 社交 媒体 可 以 带 来 巨大 的 好 处 。 然 而 ， 鉴 于 其 媒体 的 特性 ， 集 成 社交 媒 
体 也 会 带 来 巨大 的 挑战 。 第 一 ， 社 交 媒 体 数 据 往 往 带 有 噪声 ， 充 满 垃圾 和 低 质 量 的 数据 。 
第 二 ， 由 于 数据 和 用 户 的 短暂 性 ， 识 别 有 质 量 的 数据 和 社交 媒体 中 具有 影响 力 的 用 户 变 得 
非常 困难 。 第 三 ， 数 据 往往 缺乏 上 下 文 ， 使 得 它们 很 难 解释 和 集成 。 例 如， 除非 我 们 知道 
梅 尔 吉 善 森 刚刚 发 生 一 起 事故 ， 和 否则 很 难 解 释 “ 梅 尔 刚 刚 撞 坏 了 他 的 玛莎拉蒂 ”这 条 推 
特 。 第 四 ， 社 交 媒 体 数 据 常常 以 高 速 流 的 形式 到 来 ， 这 些 数据 流 需要 非常 快 的 处 理 速 度 。 
这 不 仅 导致 “大 数据 ”， 还 带 来 “ 快 数据 ”的 挑战 。 社 交 媒 体 集 成 的 研究 刚刚 兴起 ， 但 这 

456) ” 毫 无 疑问 是 未 来 数据 集成 的 研究 重点 。 


19.7 基于 集群 和 云 的 并 行 处 理 与 缓存 


数据 集成 的 终极 目标 是 能 够 集成 含有 海量 数据 的 众多 数据 源 ， 直 至 能 够 达到 Web 上 
结构 化 数据 的 规模 。 

目前 ， 我 们 距离 这 一 目标 还 很 远 。 现 在 大 部 分 的 查询 引擎 、 模 式 匹 配器 、 存 储 系统 、 
查询 优化 器 等 仅 适 用 于 单 服 务 器 或 者 很 小 的 集群 ， 这 很 快 就 会 出 现 性 能 瓶颈 。 同 样 ， 许 多 
核心 算法 是 基于 有 限 规模 的 假设 (例如 ， 算 法 限于 内 存 中 运行 ) 。 

扩展 到 更 多 资源 并 利用 更 多 处 理 能 力 来 获得 更 精确 匹配 和 更 广泛 搜索 的 能 力 是 我 们 的 终 
极目 标 ， 而 这 无 疑 需 要 我 们 重新 设计 算法 以 便 充分 利用 大 型 集群 的 能 力 。 诸 如 模式 匹配 、 实 

[457] 体 识别 、 数 据 清洗 、 索 引 之 类 的 问题 将 以 一 种 更 加 并 行 化 和 可 扩展 的 方式 加 以 处 理 。 
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Abox, 328 
Access- pattern limitation (访问 模式 限制 )，68， 
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executable plans，generating (生成 可 执行 计 
划 )，81-84 
modeling (构建 ) 81 
Accuracy challenge (准确 性 挑战 ) 95 
Acyclicity constraint (无 环 约束 )，166 
Adaptive method ( 自 适应 方法 )，426 
Adaptive query process ( 自 适 应 查询 处 理 )，225-226 
Affine Gap measure ( Affine Gap 度量 )，100- 102， 
100f, 102f 
Agglomerative Hierarchical Clustering ( AHC, 凝聚 
层次 聚 类 法 ) 180, 200 
Algorithm decide completeness (算法 Decide- Com- 
pleteness) ，91 
Analysis time vs. execution time (分 析 时 间 与 执行 时 
间 ) 225 
Annotations (标注 ) 436 
comments and discussions (评论 和 讨论 )， 
439-441 
data provenance (数据 溯源 ) 360 
Answering queries, using view ( 基于 视图 的 查询 应 
答 ) 43-44 
algorithms, comparison of (算法 比较 ) , 57-58 
Bucket algorithm ( 桶 算法 )，48-51 
closed- world assumption (封闭 世界 假设 )， 
60-61 
interpreted predicates with ( 比较 谓词 )，61-62 


Inverse-rules algorithm ( 逆 规 则 算法 ) 56-57 
MiniCon algorithm (MiniCon 算法 ) 51-55 
open- world assumption (开放 世界 假设 ) 59-60 
problem of (基于 视图 的 查询 应 答 问题 ) 44-46 
relevant queries (相关 查询 ) ，46-48 

Archiving update log (存档 更 新 日 志 ) ，444 

Ashcraft, 109 

Attribute correspondence, schema mapping (属性 映 
射 ， 模 式 映射 ) 351 

Attribute name, mediated schema (属性 名 ， 中 介 模 
式 ) 65-66 

Attribute-level uncertainty (属性 级 不 确定 性 ) ，347 

Autonomous data sources, interfacing with (基于 自 
治 数据 源 的 交互 ) 223 

Autonomy for data integration (数据 集成 的 自治 性 ) 6 
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Backwards expansion (向 后 扩展 ) 403-404 
Bag semantics ( 包 语 义 ) 41-43 
Bayes’ rule ( 贝 叶 斯 规则 ) ，190 
Bayesian network ( 贝 叶 斯 网 络 )，183- 184，190， 
191f 
as generative model (作为 生成 模型 的 贝 叶 斯 网 
络 ) ，189-190 
learning (学 习 贝 叶 斯 网 络 ) 186-189 
modeling feature correlations (特征 相关 性 )， 
192-193, 192f 
representing and reasoning with (基于 贝 叶 斯 网 
络 的 表示 和 推理 ) ，184-185 
Beam search (定向 搜索 ) 151 
BID model (BID 模型 ) J Block- independent- dis- 
joint model 
Bidirectional expansion (双向 扩展 ) ，404 
Bidirectional mappings (双向 映射 ) ，322 
Bioinformatics (生物 信息 学 ) 441-442 


BioSQL, 443 

Bipartite graph (二 部 图 ) 116 

Blank nodes in RDF (RDF 中 的 空白 节点 ) ，338-339 

Block-independent- disjoint (BID) model ( 块 独 立 
不 相交 模型 ) ，349-350 

Blocking solution ( 块 方法 ) 111 

Blogosphere (博客 圈 )，456 

Boolean expression (布尔 表达 式 ) ，226 

Boolean formulas (布尔 公式 ) 35 

Bound filtering (边界 过 滤 ) 116-117 

Bucket algorithm ( 桶 算法 ) 48-51 

Build large-scale structured Web databases (构建 大 
规模 结构 化 Web 数据 库 ) , 454-455 

By-table semantics (XX), 353-354, 355/ 

By-tuple semantics (元 组 语义 ) 354-356 
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Caching (缓存 ) 283-284, 457 

Candidate networks (候选 网 络 ) 404 

Candidate set (候选 集合 ) ，155 

Canonical database (规范 化 数据 库 ) ，33 

Canopies (分 组 ) 203 

Cardinality constraint (基数 约束 ) 165-166 

Cardinality estimation (基数 估计 ) ，214 

Cartesian product ( 笛 卡 儿 积 ) 384 

CDATA (字符 数据 ) ， 见 Character data 

CDSS (协同 数据 共享 系统 ) IL Collaborative data 
sharing system 

Centralized DBMS (集中 式 关 系数 据 库 管理 系 
统 ) 217 

Character Data (CDATA ， 字 符 数 据 ) 297 

Chase procedure (Chase 过 程 ) 446 

Chase rule (Chase 规则 ) , 86-87 

Classifier technique (分 类 技术 ) 133 

Closed-world assumptions (封闭 世界 假设 ) 60-61 

Cloud-based parallel process (基于 云 计 算 的 并 行 处 
4), 457 

Cluster-based parallel process (基于 集群 的 并 行 处 
理 ) ,457 

Clustering ( 聚 类 ) 
collective matching based on (基于 聚 类 的 协同 

匹配 ) ，200-201 

data matching by (上 聚 类 数据 匹配 ) 180-182 
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Co-testing (协同 测试 ) ，263 
Collaboration in data integration (数据 集成 中 的 
协同 ) 
annotation (标注 ) 
comments as (评论 ) 439-441 
mapping as (PRAT), 438-439 
challenges of (挑战 ) 435-436 
corrections and feedback process (处 理 校 正和 
反馈 ) , 436-437 
user updates propagated, upstream/downstream 
(向 上 传播 的 用 户 更 新 /向 下 传播 的 用 户 
更 新 ) 437-438 
Collaborative Data Sharing System (CDSS， 协 同 数据 
共享 系统 ) 
data provenance (数据 溯源 ) 447-448 
peer in (CDSS 中 的 对 等 节点 ) 442 
Properties of ( 属性) ，441 
reconciliation process (CDSS 协调 过 程 ) ，449 
trust policies (信任 策略 ) ，448-449 
update exchange process (更 新 交换 过 程 )， 
445-447 
warehouse services (仓库 服务 ) ，441-442 
Collective matching (协同 匹配 ) 174, 198-200, 204 
based on clustering (基于 聚 类 的 协同 匹配 )， 
200-201 
entity mentions in documents (文档 中 的 实体 指 
代 ) ，201-202 
Commercial relational databases (商用 关系 数据 
Æ), 23 
CommitteeType, 299 
Compatible data values, discovering ( 发现 数 据 值 上 
的 可 兼容 性 ) 408 
Complete orderings, query refinements and (全 排序 
和 查询 优化 ) ，36-37 
Complex query reformulation algorithms (复杂 查询 重 
写 算法 ) 75 
Composability ( 可 组 合 性 ) 29 
Compose operator (组 合 操 作 ) ，163 
Composing scores, uncertainty (组 合 分 值 ) 347 
Computational complexity (计算 复杂 度 ) ，356 
Concordance table (索引 表 ) 93 
Condition variables, uncertainty (条 件 变 量 ， 不 确 
定性 ) ，347 
Conditional Probability Table ( CPT， 条 件 概率 表 ) , 
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184f, 185, 187, 188f, 191-193, 191f 
Conjunctive queries ( 合 取 查 询 ) 26-28 
interpreted predicates ( 比较 谓词 ) 35-37 
negation (否定 ) 37-41 
query containment of (查询 包含 ) 32-34 
unions of ( 合 取 查询 的 并 集 ) , 34-35 
Consistent target instance (一 致 的 目标 实例 )， 
352-353 
Constraint enforcer (约束 执行 器 ) ，128，135 
Containment mapping (包含 映射 ) 32 
interpreted predicates with ( 比较 谓词 ) 35 
Content-free element (无 内 容 的 元 素 ) 295 
Conventional query processor，module in (传统 查询 
处 理 器 的 构成 ) ，2117 
Core universal solution (核心 通用 解 ) 281-282 
Corrective Query Processing ( CQP, 校正 查询 处 
理 ) ，232 
cost- based reoptimization (基于 代价 的 重新 优 
化 ) ，235-238 
Cost-based backwards expansion (基于 代价 的 后 向 
扩展 ) 404 
Cost- based Reoptimization (CQP， 基 于 代价 的 重新 
IRAE), 235-238 
Count queries (计数 查询 ) , 42 
CPT (条 件 概率 表 ) , JL Conditional probability table 
CQP (校正 查询 处 理 ) , JL Corrective query processing 
Crowdsourcing (REL), 454 
Curation, scientific annotation and (科学 标注 和 保 
E), 440 
Cyclic mapping (循环 映射 ) 447 
Cyclic PDMS (循环 PDMS) , 420 


D 


Data (数据 ) 345 
annotation (数据 标注 ) 436 
cleaning (数据 清洗 ) ，453-454 
creation/editing (数据 创建 /编辑 ) 435 
governance (数据 治理 ) 274 
graph (数据 图 ) 399-401 
placement and shipment in DBMS (数据 库 管 理 系 

统 中 的 数据 放置 和 转移 ) ，217-218 

profiling tool (数据 概要 分 析 工 具 ) 275 
relationship (数据 关系 ) 





annotations on (数据 标注 ) ，360 
graph of (数据 关系 图 ) 361-362, 361f 
sources (数据 源 ) 65, 67f, 68 
transformation module (数据 转换 模块 ) 275 
type (数据 类 型 ) 390 
warehousing (数据 仓库 ) 9, 11 
definition (数据 仓库 定义 ) ，272 
design (数据 仓库 设计 ) 274 
ETL (抽取 /转换 /加 载 ) 275-276 
MDM (〈 主 数据 管理 ) 273-274 
Data exchange (数据 交换 ) ，272，321 
program (数据 交换 程序 ) 446 
setting (数据 交换 设置 ) 277-278 
solution (数据 交换 解 ) ，278-279 
core universal solutions (核心 通用 解 )， 
281-282 
materialized repository (物化 信息 库 ) 283 
universal solutions (通用 解 ) ，279-281 
Data integration ”数据 集成 
architecture (数据 集成 架构 ) 9, 10f 
challenges of (数据 集成 挑战 ) ，6 
logical (逻辑 ) ，7-8 
setting expectation ( 设 定 预期 ) 9 
social and administrative (社会 和 管理 因 
素 ) 8-9 
system (系统 ) ，6-7 
component of (数据 集成 组 件 ) ，10-12 
example of (数据 集成 例子 ) 1-5 
goal of (数据 集成 目标 ) ，6 
keyword search for (数据 集成 中 的 关键 字 搜 
索 ) ，407-410 
modules in (数据 集成 模块 )，220f 
Data integration engine (数据 集成 引擎 ) 222 
Data lineage (数据 世系 ) ， 见 Data provenance 
Data matching (数据 匹配 ) 174f 
by clustering (基于 聚 类 的 数据 匹配 ) 180-182 
entity mentions in text (文本 中 的 实体 指 代 )， 
193-198 
learning based (基于 学 习 的 数据 匹配 ) 177-180 
with Naive Bayes (基于 朴素 贝 叶 斯 的 数据 匹配 ) ， 
190 
probabilistic approaches to (概率 匹配 ) 182-183 
Bayesian networks ( 贝 叶 斯 网 络 ) 183-186 
problem of (数据 匹配 问题 ) ，173-174 


rule-based (规则 匹配 ) , 175-177 
scaling up (数据 匹配 扩展 ) 203-205 
Data pedigree (数据 血统 )， 见 Data provenance 
Data provenance (数据 湖 源 ) 359, 447-448 
annotations on (标注 ) 360 
applications of (数据 济源 应 用 ) , 362-363 
graph of relationships (关系 图 ) 361-362, 361f 
Data-level heterogeneity (数据 级 异 构 性 ) 92-93 
Data-level variations (数据 级 别 的 差异 ) 67 
Database concepts ，review of (数据 库 概 念 回顾 ) 
conjunctive queries ( 合 取 查询 )，26-28 
data model (数据 模型 ) 22-23 
datalog program (datalog 程序 ) ，28-29 
integrity constraints ( 完整 性 约束 ) 24-25 
queries and answer (查询 与 应 答 ) 25-26 
Database instances (数据 库 实 例 ) ，23 
Database Management System (DBMS， 数 据 库 管 理 
系统 ) 
parallel vs. distributed ( 并行 数据 库 管 理 系统 与 
分 布 式 数据 库 管 理 系统 ) 216-217 
performance of (性 能 ) ，209 
query process (查询 处 理 ) 210-211 
control flow (控制 流 ) 216 
cost and cardinality estimation (代价 和 基 
数 估 计 ) , 214 
enumeration ( 枚 举 ) ，212-213 
execution (执行 ) 211-212 
granularity of process (处 理 粒度 )，214-216 
interesting orders (使 用 排序 ) 213 
Database reasoning vs. description logics (数据 库 推 
理 与 描述 逻辑 ) ，333-334 
Database schemas (数据 库 模 式 )，22，122f/ 
Database system, queries (数据 库 系统 ， 查 询 ) ，25 
Datalog program (datalog 程序 ) ，28-29 
Dataspace system (数据 空间 系统 ) ，394-395 
DBMS (数据 库 管 理 系统 ) ， 见 Database manage- 
ment system 
De-duplication (去 重 ) ，275 
Decision-support (决策 支持 ) ，273 
Declarative warehousing，data exchange (描述 性 仓 
库 ， 数 据 交 换 ) ，276-277 
Deep Web (深层 网 络 )，376-377，379-380 
surfacing (深层 网 络 浅 层 化 ) 383-385 
vertical search engine (垂直 搜索 引擎 ) 380-383 
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Dependent join operator ( 依赖 连接 操作 ) ，224 
Description logics (描述 逻辑 ) 327-328 
inference in (描述 逻辑 的 推理 ) 331-333 
semantics of (描述 逻辑 语义 ) 329-331 
syntax of (描述 逻辑 语法 )，328-329 
vs. database reasoning (描述 逻辑 与 数据 库 推 
理 ) ，333-334 
Desiderata ( 必要 条 件 ) ，65 
Distinguished variables (独立 变 元 ) ，26 
Distributed query process (分 布 式 查询 处 理 ) ，216-219 
Distributed vs. parallel DBMS (分 布 式 与 并 行 DBMS)， 
216-217 
Document Object Model (DOM， 文 档 对 象 模型 ) , 
300-301 
Document root (文档 根 节点 ) 295 
Document Type Definition ( DTD， 文 档 类 型 定义 )， 
296-298 
Dom relation (Dom 关系 ) 84 
Domain integrity constraints ( 域 完整 性 约束 ) , 135-137 
Domain ontology ( 领域 本 体 ) 325 
Double pipelined join 〈 双 流水 线 连接 ) ， 见 Pipe- 
lined hash join 
Dynamic content (HAA), I Deep Web 深层 
网 络 
Dynamic data, CDSS (动态 数据 ， 协 同 数据 共享 系统 ) 
architecture (架构 )，443-444 
data provenance (数据 溯源 ) 447-448 
peer in (对 等 节点 ) 442 
properties of (属性 ) ，441 
reconciliation process (协调 过 程 ) 449 
trust policies (信任 策略 ) ，448-449 
update exchange process (更 新 交换 过 程 )， 
445-447 
warehouse services (仓库 服务 ) 441-442 
Dynamic- programming algorithm (动态 规划 算法 ) , 97 


E 


Eddy 
lottery scheduling routing (彩票 调度 路 由 )， 
234-235 
queueing- based plan selection (基于 队列 的 计 
划 选 择 ) ，232-234 
Edges 
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adjust weights on (调整 边 和 节点 的 权重 ) ， 
409-410 
directed (有 向 边 ) 399, 400 
Edit distance (编辑 距离 ) 96-98, 97f, 98f 
Efficient reformulation (高 效 重 写 ) 70 
Enterprise Information Integration (EN, 企业 信 息 集 
成 ) ，283 
Equality- Generating Dependencies (EGD， 等 值 生成 
依赖 )，24，80，277 
Eurocard database ( Eurocard 3 #5 JÆ), 1-4, 3f, 
7-8 
Event-condition-action rule framework (事件 -条件 - 
操作 规则 框架 ) , 226 
Event- driven adaptivity (事件 驱动 自 适 应 策略 ) , 226 
handling source failures and delays (数据 源 故 
障 和 延迟 处 理 ) 227-228 
handling unexpected cardinalities ( 突 发 基数 处 
理 ) 228-231 
Evidence, combining (证 据 ， 组 合 ) 408 
Executable plans, generating (生成 可 执行 计划 )， 
81-84 
Executable query plan (可 执行 查询 计划 ) ，81-82 
Execution time vs. analysis time (执行 时 间 与 分 析 时 
间 ) ，225 
Existential variables (存在 变量 ) 26 
Expectation- maximization (EM) algorithm (期 望 最 大 
化 算法 (EM) ) 187, 188f, 197, 198, 205 
Explanation, provenance ( 解释， 溯源 ) 363 
eXtensible Markup Language (XML， 可 扩展 标记 语 
A), 292, 446 
document order (文档 顺序 ) ，295-296 
namespaces and qualified names (命名 空间 和 
限定 名 称 ) , 294-295 
output (输出 ) 317 
path matching (路 径 匹 配 ) 313-316 
query capabilities for (XML 查询 能 力 ) 306-312 
query language 查询 语言 
DOM and SAX (DOM fil SAX 查询 语言 , 
300-301 
XPath (XPath 查询 语言 ) 301-306 
XQuery (XQuery 查询 语言 ) 306-312 
query processing for (查询 处 理 ) 312-313 
模式 映射 


nested mappings, query reformulation with 


schema mapping for 








(RERIT, AWE), 321-322 
nesting, mappings with (i Æ, Ik Ht), 
318-321 
structural and schema definitions 
定义 
DTD (文档 类 型 定义 ) ，296-298 
XSD (XML 模式 ) ，298-300 
tag, element, and attribute (标签 、 元 素 与 属 
性 ) 293-294 
Extensional database (EDB) relation (外 延 关系 ) 28 
External data, direct analysis of (外 部 数据 ， 直 接 
分 析 ) 284-287 
Extract- Transform- Load (ETL) operation (抽取 - 
转换 -装载 (ETL) HE), 275-276 
tool (ETL 工具 ) 11 
Extraction program (抽取 程序 ) 246 
Extraction rules with Lixto (基于 Lixto 的 抽取 规 
则 ) ，267-269 


结构 和 模式 


Facebook (脸谱 )，456 

FindCands method (FindCands 方法 ) 110, 111 

FindMapping algorithm (FindMapping 算法 ) ，156 

Flat-file-based data analysis (基于 扁平 文件 的 数据 
分 析 ) ，287 

FLWOR, 307-309 

Foreign key constraints ( 外 键 约束 )，24 

Fullserve company database ( Fullserve 公司 数据 
FE), 1-4, 2f, 7-8 

Functional dependencies ( 函数 依赖 ) 24 


G 


Gap penalty (空格 惩罚 ) 98, 101f 
GAV (全 局 视图 ) JL Global- as- View 
Generalized Jaccard measure ( 泛 Jaccard 度量 )， 
106-108, 107f 
Generative model (生成 模型 ) 194- 195, 194f, 
201 
Bayesian networks as (基于 贝 叶 斯 网 络 的 生成 
模型 ) ，189-190 
learning (生成 模型 学 习 ) 196-198 
matching entity mention (实体 指 代 匹配 ) ，195 
Generic operator (通用 操作 ) 162 





GLAV (全 局 - 局 部 视图 ) J Global- and- Local- 
as View 

Global alignment (全 局 比 对 ) , 102 

Global- and- Local- as- View (GLAV， 全 局 - 局 部 视 
图 ) ，77-78 
mapping (PRAT), 427, 428 

Global-as- View (GAV, BWA), 70-73, 415 
approach (全 局 视图 方法 ) 123 
mapping (全 局 视图 映射 ) 438 
with integrity constraint (完整 性 约束 ) ，88-89 

Google Scholar, 454 

Google’s MapReduce programming paradigm ( Google 
MapReduce 编程 模型 ) ，284 

Granularity level (粒度 级 别 ) ，66 

Graph expansion algorithms (图 扩展 算法 ) 403-404 

Graph random- walk algorithm (图 随机 游 走 算法 ) ， 
401 

Graphical user interface ( 图形 用 户 接口 ) 153 

Ground atom ( 闭 原 子 ) 23 


H 


Handling limited access pattern (处 理 受 限 的 访问 模 
xX), 224 

Hash-based exchange scheme (基于 散 列 的 交换 策 
We) , 217 

Hash- based operators for faster initial result (快速 获 
取 结 果 的 散 列 操作 ) , 223 

Hashes effect ( 散 列 方法 )，110 

Hashing (#71), 203 

Head homomorphism ( 同 部 同 态 ) 52 

Head variable ( 头 部 变 元 ) 26 

Head- left-right- tail (HLRT) wrapper (HLRT 包装 
器 ) 249-250 
learning (HLRT 包装 器 学 习 ) , 250-251 

Heterogeneity ( 异 构 性 ) 375 
semantic (语义 ) 8 
type of ( 异 构 类 型 ) 382 

Higher-level similarity measure ( “上层” 相似 度 度 
量 方法 ) ，108 

Homomorphism ( 同 态 ) 280 

Horizontal partitioning (水 平 划分 ) 217 

HTML ( 超 文 本 标记 语言 )， 见 HyperText Markup 
Language 
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Hybrid similarity measure ”混合 相似 度 度 量 
generalized Jaccard measure ( 泛 Jaccard 度量 ) , 
106-108, 107f 
Monge- Elkan similarity measure ( Monge- Elkan 
相似 度 度量 ) , 109 
soft TF/IDF ( 泛 TF/IDF 相似 度 度量 )，108- 
109, 108f 
HyperText Markup Language ( HTML， 超 文本 标记 
语 ) ，292 
data (数据 ) ，375 
table (表格 )，376f 


IDF measure (IDF 度量 ) ， 见 Inverse Document Fre- 
quency measure 
Immediate consequent, provenance ( 直接 结果 ， 漳 
Wi), 361 
Import filter ( 导 人 和 人 过滤 器) 275 
Incremental update propagation ( 增 量 式 更 新 传 
HE), 447 
Indexing (871), 203 
Information- gathering query operator (信息 收集 查询 
操作 ) 229 
Informative input (有 价值 的 输入 ) ，384 
Input attribute (输入 属性 ) ，381 
Instance-based matcher (实例 匹配 器 ) ，132 
Integrated data, visualization (集成 数据 ， 可 视 化 )， 
456 
Integrity constraint (完整 性 约束 ) , 22, 24-25, 78 
on mediated schema (中 介 模 式 的 完整 性 约 
W), 85-89 
Intensional database (IDB) relation (内 涵 数 据 库 关 
RR), 28 
Interactive wrapper construction ( 交互 式 包 装 器 构 
Æ), 263 
creating extraction results with Lixto (基于 Lixto 
构建 抽取 结果 ) , 267-269 
identifying extraction results with poly (基于 poly 
识别 抽取 结果 ) , 264-267 
labeling of pages with stalker (使 用 stalker 标记 
页 面 ) 263-264 
Internet data, query execution for (针对 互联 网 数据 
的 查询 执行 ) 222 
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Interpreted atoms ( 比较 原子 ) 27, 35 
Interpreted predicates (比较 谓词 ) 30, 61-62 
Inverse document frequency (IDF) measure (3% fe] 
文档 频率 度量 (IDF) ) 105-106, 105f 
Inverse mapping (RST), 169 
Inverse rules ( 道 规 则 )，79，80，86 
advantage of ( 道 规 则 优点 ) ，57 
algorithm 〈 逆 规则 算法 ) ，56-57 
Invert operator ( 逆 操 作 ) 164, 168-170 
Inverted index over string (字符 串 倒 排 索 引 )，111- 
112, 111f 
Iterative probing (和 迭代 探测 法 ) 385 
Iterator model (和 迭代 模型 ) 216 


J 


Jaccard measure (Jaccard 度量 ) 104, 132 

Jaccard similarity measure (Jaccard 相似 度 度 量 ) , 200 
Jaro measure (Jaro 度量 ) 103 

Jaro- Winkler measure (Jaro- Winkler 度量 ) 104 
Java model (Java 模型 ) ，167 


K 


Key constraints ( 主键 约束 ) 24 
Keyword matching (关键 字 匹 配 ) , 401-403 
Keyword search 关键 字 搜 索 
for data integration (针对 数据 集成 的 关键 字 搜 
索 ) ，407-410 
over structured data (结构 化 数据 的 关键 字 搜 
索 ) ，399-403 
Knowledge representation (KR) system (知识 表示 
系统 ) 325-327 


L 


LAV (局 部 视图 ) J Local-as- View 

Learning algorithm (学 习 算 法 ) ，177 

Learning technique (ZIHR), 410 

Learning- based wrapper construction (基于 学 习 的 包 
装 器 构建 ) ，249 

Left outer join operator ( 左 外 连接 操作 符 ) ，317 

Levenshtein distance (编辑 距离 ) 96 

Lightweight integration ( 轻 量 集 成 )，455-456 

Linearly weighted matching rule (线性 加 权 匹 配 规 
则 ) ，176 


Lixto system, creating extraction rules with (基于 
Lixto 系统 构建 抽取 规则 ) , 267-269 

Local completeness (局 部 完备 性 ) ，89-90 

Local contribution table (本 地 贡献 表 ) 447 

Local data，direct analysis of (本 地 数据 的 直接 分 

析 ) ，284-287 

Local rejections table (本 地 拒绝 表 ) 447 

Local-as- View (LAV， 局 部 视图 ) 73, 415 
approach (局 部 视图 方法 ) 123 
reformulation in (LAV 中 的 重 构 )，75-76 
syntax and semantics (语法 和 语义 ) 74-75 
with integrity constraints ( 完整 性 约束 ) 85-87 

Local-completeness constraint (局 部 完备 性 约 W), 
89-90 

Logical query plan (ZAMR), 65, 68-70, 212f 

Logistic regression matching rules (逻辑 回归 匹配 规 
WJ), 175-176 

Lottery scheduling scheme for routing (彩票 调度 路 
H), 234-235 


M 


Machine learning technique (机 器 学 习 技术 ) 409 

Manual wrapper construction (手工 包装 器 构建 )， 
247-249 

Many-to- many matche (多 对 多 匹配 ) 124, 150- 
152, 150f 

Many-to-one matche (多 对 一 匹配 ) , 124 

Mappings (映射 ) 163 
rule (映射 规则 ) , 364, 365 

MapReduce framework ( MapReduce 框架 ) 285 

Margin- Infused Ranking Algorithm (MIRA 算法 )， 
410 

Mashup (RA), 388 

Master data management (MDM， 主 数据 管理 ) ， 
273-274 

Match combination (匹配 组 合 ) 135, 144 
searching the space of (搜索 匹配 组 合 空间 ) ， 

137-143 

Match operator ( 匹配 操作 ) 161, 163 

Match prediction, combining (匹配 预测 ， 组 合 )，134 

Match selector (匹配 选择 器 ) ，143-144 

Matcher 〈 匹 配器 ) 128-134 

Materialized repository (物化 信息 库 ) ，283 


Materialized view (物化 视图 ) 25 
Max queries (Max 查询 ) ，43 
MCD (MiniCon 描述 ) JL MiniCon description 
m-estimate method (m 估计 方法 ) 187 
Mediated schema ( 中介 模式 ) 11-13, 65, 67f, 
133, 145, 346, 381, 413 
完整 性 约束 
GAV (GAV 上 的 完整 性 约束 ) ，88-89 
LAV (LAV 上 的 完整 性 约束 ) ，85-87 
Mendota, 115 
Merge operator (合并 操作 ) 161, 163-166 
Message-passing systems (消息 传递 系统 ) 162 
Meta-leamer (元 学 习 器 ) 146, 147, 149-150 
Meta-meta-model (元 -元 模型 ) ，168 
Meta-model (元 模型 ) 163 
translation between (元 模型 之 间 的 转换 ) 166 
Metadata 〈 元 数据 ) 274, 395 
Mid- query reoptimization (查询 中 重 优 化 ) 228, 238 
Middle-tier caching (中 间 层 缓存 ) 284 
MiniCon algorithm (MiniCon 算法 ) 51-55, 424 
MiniCon description (MCD, MiniCon 描述 ) 51, 424 
combining (MCD 合并 ) 54-55 
definition (MCD 定义 ) 52-54 
Model management operator (模型 管理 操作 ) 162- 
164, 162f 
developing goal of (模型 管理 操作 的 开发 目 
标 ) ，168 
use of generic set of (通用 集合 的 使 用 ) ，161 
Model management system (模型 管理 系统 ) 163, 170 
ModelGen operator ( ModelGen 操作 ) 163, 166- 
168, 167f 
Model (模型 ) 163 
Modern database optimizer (现代 数据 库 优 化 器 ) ，212 
Monge- Elkan similarity measure ( Monge- Elkan 相似 
ERE), 109 
Multi- set semantics ( 众 包 语义 ) 23 
Multi-strategy learning (多 策略 学 习 ) 146 


integrity constraints on 


N 


Naive Bayes (朴素 贝 叶 斯 ) 
assumption (朴素 贝 叶 斯 假设 ) 190 
classification technique (朴素 贝 叶 斯 分 类 技 
R), 134 
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data matching with (基于 朴素 贝 叶 斯 的 数据 匹 
配 ) ，190 
learner (朴素 贝 叶 斯 学 习 器 ) 148-149 
Name-based matcher (名 字 匹 配器 ) 130-132 
Namespaces (命名 空间 ) ，294-295 
Needleman- Wunch measure ( Needleman- Wunch FF 
fit) , 98-100, 99f 
Negative log likelihood ( 负 对 数 似 然 ) 367 
Nested mapping, query reformulation with ( fie Æ itt 
射 ， 查 询 重 写 ) 321-322 
Nested tuple schemas ( ÆJI), 251-252 
Nested tuple- generating dependency (Nested tgd, if 
套 元 组 生成 依赖 ) ，320-321 
Nodes (节点 ) 400 
adjust weight on (权重 调整 ) ，409-410 


O 


Object-oriented database schemas vs. 
description logics (面向 对 象 数据 库 模式 
与 描述 逻辑 ) 334 
ObjectRank, 401 
OLAP (联机 分 析 处 理 查询 ) ， 见 Online Analytic 
Processing Query 
One-to-many matches (一 对 多 匹配 ) 123 
One-to-one matches (一 对 一 匹配 ) 123, 127 
Online analytic processing (OLAP) queries (联机 分 
析 处 理 (OLAP) 查询 ) , 273 
Online learning (在 线 学 习 ) 409 
Open DataBase Connectivity (ODBC) wrapper ( 开 
放 数据 连接 (ODBC) 包装 器 ) 223 
Open- world assumption (开放 世界 假设 ) 59-60 
Optimizer, runtime reinvocation of (优化 器 ， 运 行 
时 重 调用 ) 231 
ORCHESTRA system ( ORCHESTRA 系统 )， 
366, 366f 
Output attribute (输出 属性 ) 381 
Overlap similarity measure ( Œ # 44 {bl HE BE E), 
104, 113 
OWL (Web 本 体 语 言 ) JI Web Ontology Language 


P 


P-mapping (概率 映射 ) JL Probabilistic mapping 
PageRank, 401 
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Parallel vs. distributed DBMS (并 行 与 分 布 式 数 据 库 
管理 系统 ) 216-217 
Pay-as-you-go( 即 付 即 用 ) 
data integration ( 数据 集成 ) ，456 
data management (数据 管理 ) ，394-395 
Pe-table (概率 条 件 表 ) JL Probalistic Conditional 
table 
Peer Data Management System (PDMS， 对 等 数据 管 
BARS), 413 
complexity of query answering in (查询 应 答 的 
复杂 性 ) 419-421 
for coordinating emergency response (协调 应 急 
响应 ) ，415 
data instance for (数据 实例 ) ，418 ，419 
with looser mapping (采用 松散 映射 进行 对 等 
数据 管理 ) 
mapping table (映射 表 ) 430-432 
similarity-based mapping (基于 相似 度 的 
BRET) , 429-430 
mapping composition (组 合 映射 ) 426-429 
peer mapping (对 等 映射 ) 414, 417-418 
query reformulation algorithm (查询 重 写 算法 ) , 
421-426 
query to (查询 ) ，415 
reformulation construction (构造 重 写 ) 426 
rule- goal tree for (目标 树 规则 ) , 422f, 424f, 
425 
semantics of mapping in (映射 的 语义 )，418- 
419 
storage description (存储 描述 ) 414, 417 
structure of (结构 ) 414 
Peer mapping (对 等 映射 ) 413, 414, 421 
composition of (组 合 ) 426, 429 
definitional (定义 ) 417, 422, 422f 
inclusion and equality (包含 和 等 值 映 射 ) 417 
interpreted predicates in (比较 谓词 ) 421 
Peer relation (对 等 关系 ) 413-415, 417, 418 
Peer schema ( 对 等 模式 ) 414, 414f, 415 
Performance- driven adaptivity (性 能 驱动 的 自 适应 
策略 ) ，231-232 
Phonetic similarity measure (语音 相似 度 度量 )， 
109-110 
Physical database (物理 数据 库 ) 9 
design (设计 )，274 





Physical query plan for data integration (数据 集成 的 
物理 查询 计划 ) 223 
Physical- level query operator ( 物理 层 的 查询 操 
作 ) ,217 
Piazza-XML mappings language (Piazza-XML 映射 语 
A), 318-319 
Pipelined hash join 〈 流 水 线 散 列 连接 ) , 222-223, 224f 
Position filtering (位 置 过 滤 ) ，115 
Prefix filtering (前 缀 过 滤 ) , 113-115, 113f 
Probabilistic conditional table ( Pc- table, 概率 条 件 
表 ) 348-349 
Probabilistic data representation (概率 数据 表示 ) 
BID model (BID 模型 ) ，349-350 
c-table (条 件 表 ) 348 
tuple- independent model (元 组 生成 依赖 ) 349 
Probabilistic generative model (概率 生成 模型 ) 201 
Probabilistic mapping ( P- mapping， 概 率 映射 )， 
350, 352 
semantic of (语义 ) 352-353 
semi-automatic schema mapping tool (半自动 模 
式 映 射 工具 ) 351 
Probabilistic matching method (概率 匹配 方法 ) 204, 
205 
Probability (概率 ) 
distribution (概率 分 布 )，183，183f 
of perturbation type (扰动 类 型 的 概率 )，196， 
197 
smoothing of (平滑 ) ，187 
theory (概率 理论 ) 183 
Procedural code (过 程 性 代码 ) 273 
Processing instruction ( 处理 指 令 ) 293, 295 
Prolog programming language ( Prolog 编程 语言 ) 29 
Provenance ( # Yi), 453-454 
annotation on data (数据 标注 表示 朔 源 ) 360 
data，application of ( 数据， 应用) ，362-363 
graph of data relationship (数据 关系 图 ) 361- 
362, 361f 
semiring formal model ( 半 环 形式 化 模型 )， 
364-365 
application of (应 用 ) 366-368 
storing (存储 ) , 368-369 
token (标记 ) , 362, 362f, 364 
trust policies and (信任 策略 ) , 448-449 
pSQL，440 





Publishing update log (发 布 更 新 日 志 ) 444 
Q 


Qualified name (限定 名 称 ) 294-295 
Quasi-inverses of mapping ( 准 逆 映射 )，169-170 
Queries (查询 ) ，346 
Query annotation (查询 标注 ) 318 
Query answer- based feedback (查询 基于 答案 的 反 
tt), 401 
Query answering inference in description logics (查询 
描述 逻辑 中 的 查询 应 答 推理 ) ，332-333 
Query capabilities and limited data statistics (查询 能 
力 及 有 限 的 数据 统计 信息 ) ，209-210 
Query containment, conjunctive queries (查询 包含 ， 
ARWAH), 32-34 
Query equivalence (查询 等 价 ) ，31 
Query execution (查询 执行 ) ，228 
engine (引擎 ) 211, 214 
for Internet data (互联 网 数据 的 查询 执 
43), 222 
selection of (选择 查询 执行 计划 ) , 211-212 
Query optimization (查询 优化 ) ，211 
Query optimizer (查询 优化 器 ) ，211 
Query plan，generating initial (生成 初始 查询 计 
划 ) ，221-222 
Query process (查询 处 理 ) 66f 
adaptive ( 自 适 应 ) ，225-226 
for data integration (数据 集成 ) , 219-221 
DBMS (数据 库 管理 系统 )， 见 Database man- 
agement system, query process 
execution (执行 ) 14-15 
optimization (优化 ) 13-14 
reformulation (#5), 13 
Query refinement (查询 优化 ) ，36-37 
Query rewrite stage (查询 重 写 阶段 ) ，211 
Query tree，score as sum of weights in (查询 树 ， 权 
重 之 和 作为 得 分 ) ，402-403 
Query unfolding (查询 展开 ) ，29-30 
stage (查询 展开 阶段 ) 211 


R 


RDF (资源 描述 框架 )， 见 Resource Description 


Framework 
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RDFS (资源 描述 框架 模式 ) JL Resource Descrip- 
tion Framework Schema 
Real-world data matching systems (实际 的 数据 匹配 
系统 ) ，177 
Reconciliation process，CDSS (CDSS 协调 过 程 ) ，449 
Recurrence equation ”递归 公式 
for Affine Gap measure ( Affine Gap BE E), 
100f, 101 
for Needleman-Wunch score ( Needleman-Wunch 
得 分 ) 99, 99F 
Recursive query plan (递归 查询 计划 ) ，83-84，86 
Reformulation HS 
GAV (全 局 视图 ) 71-72 
GLAV (全 局 - 局 部 视图 ) ，77-78 
LAV (局 部 视图 ) 75-76 
Rehash operation ( 重 散 列 操作 ) 217 
Reification, RDF (物化 ， 资 源 描述 框架 ) ，339-340 
Relation name, mediated schema (关系 名 ， 中 介 模 
式 ) 65-66 
Relational schema (关系 模式 ) ，22 
Reoptimization ( 重 优 化 ) 
mid-query (查询 中 ) 228, 238 
predetermined (预定 的 ) 229-230 
Resolving cycle constraint (解决 循环 约束 ) ，166 
Resource Description Framework ( RDF， 资 源 描述 框 
架 ) 335-337 
blank object in (空白 对 象 )，338-339 
literals in (文字 ) 338 
query of (查询 ) ，342-343 
reification (物化 ) ，339-340 
Resource Description Framework Schema (RDFS， 资 源 
描述 框架 模式 ) 335, 340-341 
Rewriting queries, length of (查询 重 写 , KÆ), 
47-48 
Root element ( 根 元 素 )，293 
Root-leaf cost, score as sum of (从 根 走 到 叶子 的 代 
Bt, 之 和 作为 得 分 ) 403 
Rule-based learner (基于 规则 的 学 习 器 ) ，147-148 
Rule- based matching (基于 规则 的 匹配 ) 175-177 
scaling up 〈 可 扩展 性 ) , 203-204 
Runtime reinvocation of optimizer (优化 器 的 运行 时 
重 调用 ) ，231 


S 
Sarbanes-Oxley Act 〈 萨 班 斯 ， 奥克斯 利 法 案 ) 274 
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SAX, 300-301 
Scalability challenge (可 扩展 性 挑战 ) ，96 
Scalable automatic edge inference (以 可 扩展 的 方式 
自动 地 构建 边 ) ，407-408 
Scalable query answering (可 扩展 的 查询 应 答 ) 409 
Scale (大 规模 ) ，375 
Schema (模式 ) 125 
combined similarity matrix for ( 24 4 #4 (U BE HE 
RE), 138: 
data instance of (数据 实例 ) ，132 
with integrity constraints (完整 性 约束 ) ，137f 
node (节点 ) 142 
propagating constraint ( 约束 传播 ) 142 
standard of ( 标准) 126 
tree representation of ( 树 形 表示 ) , 143f 
Schema mapping (#&sQ HRT), 11, 65-68, 121, 
124, 129, 168, 345, 351, 442 
challenge of (HEER), 124-127 
composing (组 合 ) 426 
formalism (形式 ) ，92 
language 语言 
GAV (全 局 视图 ) 70-73 
GLAV (全 局 - 局 部 视图 ) 77-78 
LAV (局 部 视图 ) ，73-77 
logical query plan (逻辑 查询 计划 ) ，68 
principle (原理 ) ，69-70 
tuple- generating dependencies (元 组 生成 
依赖 ) ，78-80 
match into (匹配 ) 152 
space of possible ( FJ E AY 4 la] ), 153, 154, 
156-158 
uncertainty 不 确定 性 
by-table semantics ( 表 语 义 )，353-354，355f 
by-tuple semantics (元 组 语义 )，354-356 
p-mapping (概率 映射 ) 350-353 
Schema matching (模式 匹配 ) ，121，124，127-129 
challenge of (挑战 ) 124-127 
component of (组 成 ) ，128 
learner for (7429 #%) , 147-150 
learning technique (学 习 技术 ) 145 
Scientific data sharing setting (科学 数据 共享 的 场 
景 ) 440-441 
Score component (得 分 因子 ) 409 
Score matrix (得 分 矩阵) 98, 99f 


Scoring 评分 
model (模型 ) , 401-403, 410 
provenance (HJR), 363 
Select- project- join (SPJ) expression (选择 -投影 - 
连接 (SPJ) 表达 式 ) 211, 212 
Semantics 语义 
compatibility, considering (考虑 兼容 性 ) 408 
cues (Æ), 375-376 
GAV (全 局 视图 ) 71 
GLAV (全 局 -局 部 视图 ) ，77 
heterogeneity ( 异 构 性 ) 8, 67 
reconciling (使 一 致 ) 125 
LAV (局 部 视图 ) 74-75 
mapping (HRf), 11, 122-123 
match (匹配 ) 123-124 
schema mapping (模式 映射 ) ，69 
Web, 325, 335 
Semi-supervised learning ( 半 监 督学 习 ) 409, 456 
Semiautomatic technique (半自动 技术 ) 345 
Semiring formal model ( 半 环 形式 化 模型 ) 364-365 
application of (应 用 ) 366-368 
Sensor (传感器 ) 453 
Sequence-based similarity measures (基于 序列 的 相 
似 度 度量 ) 
Affine Gap measure ( Affine Gap 度量 )，100- 
102, 100f, 102f 
edit distance (编辑 距离 ) 96-98, 97f, 98f 
Jaro measure (Jaro 度量 ) 103 
Jaro- Winkler measure (Jaro- Winkler 度量 ) 104 
Needleman- Wunch measure ( Needleman- Wunch 
度量 ) 98-100, 99f 
Smith- Waterman measure ( Smith- Waterman 度 
fit), 102-103, 103f 
Sequential covering (FJJM 3), 255 
Set- based similarity measures ”基于 集合 的 相似 性 
度量 
Jaccard measure (Jaccard 度量 ) ，104 
overlap measure (重合 度量 )，104 
TFAIDF measure (TF/IDF 度量 )，105-106，105f 
SGML (结构 化 通用 标记 语言 )， 见 Structured Gen- 
eralized Markup Language 
Similarity measure ( 相似 度 度量 ) 
hybrid (混合 的 ) 


generalized Jaccard measure ( 泛 Jaccard 度 
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ft), 106-108, 107f 
Monge- Elkan similarity measure ( Monge- 
Elkan 相似 度 度量 ) 109 
soft TF/IDF ( 7 TF/IDF ), 108- 
109, 108f 
phonetic (i877), 109-110 
sequence-based ”基于 序列 的 
Affine Gap measure ( Affine Gap 度量 )， 
100-102, 100f, 102f 
edit distance (编辑 上 距离) 96-98, 97f, 98f 
Jaro measure (Jaro 度量 ) 103 
Jaro- Winkler measure ( Jaro- Winkler 度 
Æ), 104 
Needleman- Wunch measure ( Needleman- 
Wunch 度量 ) , 98-100, 99f 
Smith-Waterman measure (Smith-Waterman 
度量 ) 102-103, 103f 
set-based ”基于 集合 的 
Jaccard measure (Jaccard 度量 ) 104 
TF/IDF measure ( TF/IDF 度量 )，105- 
106, 105f 
Simple delete-insert update model (简单 的 删除 - 插 
人 更 新 模型 ) ，449-450 
Single-database context (单一 数据 库 环境 ) 401 
Size filtering (大 小 过 滤 ) ，112 
Skolem function (Skolem 函数 ) 80 
Skolem term (Skolem 项 ) , 56 
Skolem value (Skolem 值 ) 446 
Smith- Waterman measure ( Smith- Waterman 度量 ) , 
102-103, 103/ 
Social media, integration of (社交 媒体 ， 集 成 ) 456 
Soft TF/IDF similarity measure (7% TF/IDF 相似 度 
度量 ) 108-109, 108f 
Softened overlap set (72 M4) , 107 
Sorting (排序 ) 203 
Soundex code (语音 表示 ) ，109 
Source description, vertical- search engine (数据 源 
描述 ， 垂 直 搜 索引 擎 ) , 382 
SparQL language (SparQL 语言 ) 342-343 
SPJ expression (SPJ 表达 式 ) J Select-Project-join 
expression 
Spreading activation (扩散 激活 ) 404 
SQL queries (SQL 查询 ) 25, 158 
STAIR, 235 


Stalker extraction rule (Stalker 抽取 规则 ) , 254 
Stalker wrapper (Stalker 包装 器 ) , 251-252 
learning (学 习 ) 254-256 
model (模型 ) ，252-253 ，256 
Standard data integration application (标准 数据 集成 
应 用 ) , 388 
State module (STeM， 状 态 模块 ) 235 
Statistics collection operator (统计 收集 操作 ) 229 
Steiner tree algorithm (Steiner 树 算法 )，402，403 
STeM ( 状态 模块 ) JL State module 
Stitch- up plan, creating (缝合 计划 ， 生 成 )， 
238-240 
Storing provenance (溯源 的 存储 ) ，368-369 
Streaming XPath evaluation ( 流 式 XPath 处 理 ) ，312 
String matching (字符 串 匹配 ) 
problem description of (问题 描述 )，95-96 
scaling up (扩展 ) 
blocking solution ( 块 方法 ), 111 
bound filtering (边界 过 滤 ) 116-117 
inverted index over strings (字符 串 的 倒 排 
索引 ), 111-112, 111f 
position filtering (位 置 过 滤 )，115 
prefix filtering ( Aj it YE), 113- 115, 
113f 
size filtering (大 小 过 滤 ) 112 
technique (技术 ) ，117 
similarity measure ”相似 度 度 量 
hybrid (混合 ) ，106-109 
phonetic (i477), 109-110 
sequence-based (基于 序列 ) , 96-104 
set-based (基于 集合 ) 104-106 
Structured data，keyword search (结构 化 数据 ， 关 
键 字 搜 索 ) ，399-403 
Structured Generalized Markup Language (SGML, 4 
构 化 通用 标记 语言 ) 292 
Structured queries (结构 化 查询 ) 25 
Sub-instance ( 子 实例 ) 282 
Suboperators for eddy (Eddy 的 子 操作 ) ，233 
Subsumption inference in description logics (包含 的 
描述 逻辑 推理 ) 331-332 
Super-model ( 超 模 型 ) 168 
Support vector machines (SVM, 支持 向 量 
#L), 178 
Surfacing ( 浅 层 化 ) 383-385 
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T 


TA (BÈ), J Threshold Algorithm 

Tabular organization (表格 组 织 ) 66 

Target data instance ( 目标 数据 实例 ) , 276 

Tbox 328 

Term frequency (TF) measure ( ia] $i (TF) Æ 
Æ), 105-106, 105f 

Text content (文本 内 容 ) 294 

TF measure ( 词 频 度 量 ) JL Term frequency measure 

Threshold Algorithm (TA, f(A Wie), 404, 
405 

Threshold value ( 阅 值 ) ，405 

Threshold- based merging (基于 阅 值 的 合并 )， 
404-407 

Top-k query processing (Top-k 查询 处 理 ) ，404 

Topical portal ( 主题 门户 网 站 ) 378, 385-388 

Training data (训练 数据 ) ，177 

Transaction, challenges of (事务 ， 挑 战 ) 449-450 

Transformation (转换 ) 92 
modelGen performing ( modleGen 执行 ) 167 

Transient data integration task (暂时 性 的 数据 集成 
任务 ) ，378 

Trust policies (信任 策略 ) ，448-449 

Tuple router, eddy (元 组 路 由 器 ，eddy ) 233, 
234 

Tuple- generating dependencies (tgd， 元 组 生成 依 
Hi), 24, 78-80, 277 

Tuple-independent model (元 组 独立 模型 ) 349 

Tuple-level uncertainty (元 组 级 不 确定 性 ) ，347 

Tuple (元 组 ) 23 

Twittersphere (HEH) 456 

Two-way Bloomjoin operator ( 双向 布 隆 连接 操作 )， 
218-219 

Two-way semijoin operator (双向 半 连 接 操 作 )， 
218-219 


U 


Umbrella set (候选 集 ) 111 

Uncertainty (不 确定 性 ) 453-454 
and data provenance (数据 济源 ) 356 
possible world (可 能 世界 ) 346-347 
probabilistic data representation (概率 数据 表 


7R), 348-350 
to probabilities ( 概率 ) 350 
schema mapping (模式 映射 ) 351 
by-table semantics ( 表 语 义 ) 353-354, 355f 
by-tuple semantics (元 组 语义 ) 354-356 
p-mapping (概率 上 映射) 350-353 
type of (类 型 ) ，347 
Uniform Resource Indicator (URI， 统 一 资源 标识 
符 ) 294, 338 
Universal solution (通用 解 ) 279-281 
Unstructured queries (无 结构 化 查询 ) 25 
Update exchange process (更 新 交换 过 程 ) ，445-447 
URI (统一 资源 标识 符 ) ， 见 Uniform Resource Indi- 
cator 
User-supervised technique (用 户 监督 技术 ) ，392 


V 


Variable mapping ( 变 元 映射 ) 32 

Variable network connectivity and source performance 
(不 稳定 的 网 络 连接 和 数据 源 性 能 ) ，210 

Vertical partitioning (垂直 分 割 ) 217 

Vertical-search engines ( 垂直 搜索 引擎 ) 378, 385 

Virtual data integration (虚拟 数据 集成 ) ，9，10 

Virtual integration system, caching (虚拟 集成 系统 ， 
缓存 ) 284 


W 


Web data (Web 数据 ) 377-379 
lightweight combination of ( 轻 量 集成 ) 
data type (数据 类 型 ) 390 
data, importing (数据 ， 导 和 人) 391-393 
mashup (RA), 388 
multiple data set, combining (多 数据 集 ， 
合并 ) ，393 
structured data, discovering (结构 化 数据 ， 
发 现 ) ，391 
Web end user information sharing (Web 终端 用 户 信 
息 共 享 ) 440 
Web Ontology Language (OWL, Web 本 体 语言 )， 
335, 341-342 
Web search ( Web 搜索 ) , 378-379 
Web Service Description Language (WSDL, Web 服 
务 描述 语言 ) ，300 





Web site with databases of job (拥有 工作 数据 库 的 
Web Px), 4-5, 5f 
Web-based application (基于 Web 的 应 用 ) 284 
Web-oriented data integration system ( 面 回 Web 的 
数据 集成 系统 ) ，225 
Weighted-sum combiner (加 权 组 合 器 ) 134 
Wikipedia (维基 百科 ) ，455 
World- Wide Web (万 维 网 ) ，375 
Wrapper (包装 器 ) 
construction (构建 ) 
categories of solution (方法 分 类 ) ，246-247 
challenges of (挑战 ) 245-246 
interactive (交互 ) JL Interactive wrapper 
construction 
learning- based (基于 学 习 的 ) 249 
manual (手动 的 ) ，247-249 
problem (问题 ) ，244 
generation tool (生成 工具 ) ，162 
HLRT, 249-250 
learning (%3), 250-251 
learning (学 习 ) ，245 
inferring schema (模式 推导 ) , 258-263 
modeling schema (模式 建 模 ) , 257-258 
without schema (无 模式 ) ，256-257 
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operator (操作 ) ，223-224 

program (程序 ) 10 

Stalker, JL Stalker wrapper 

task of (任务 ) ，243 

vertical-search engine (垂直 搜索 引擎 ) 382-383 


X 


XML (可 扩展 标记 语言 ) J eXtensible Markup 
Language 

XML Schema (XSD, XML #&z€) , 298-300, 299f 

XML Stylesheet Language Transformations ( XSLT, 
XML 样式 表单 语言 转换 ) ，300 

XML wrapper (XML 包装 器 ) ，223 

XPath language (XPath 语言 ) ，301-306 

XQuery, 306-312 
optimization (优化 ) 317 
queries (查询 ) , 25 

XSD (XML 模式 ) ， 见 XML Schema 

XSLT (XML 样式 表单 语言 转换 )， 见 XML 
Stylesheet Language Transformation 


Z 


Zipcode ( 邮政 邮编 ) 165 


